经过前面的zookeeper相关的文章，我们也对zookeeper有一定的了解，知道在zookeeper中存在三种服务器角色，分别是Leader，Follower以及Observer，其中Observer仅仅作为一个监控协调者的作用，并不参与zookeeper对外提供服务以及zookeeper的选举，而zookeeper的选举我们从前面的内容也知道，总共可以分为两种，第一种是当整个zookeeper的集群启动后，进行的选举过程，第二种则是在zookeeper运行期间，当出现Leader崩溃的过程时，zookeeper进行的选举操作。接下来我们先从启动的时候触发的选举开始学习

服务端启动时选举过程

我们在搭建zookeeper的时候往往会有一个配置文件，里面存放一个myid，用来标示集群内不同客户端的机器编号，当至少两台含有myid的机器启动后，就开始进入了zookeeper的集群选举流程

1.每个server发起一个投票

由于当前是刚启动状态，因此每一个服务实例都会默认把自己作为Leader服务器来发起投票，而每一个投票中包含了最基本的选举所需要的元素，例如myid和ZXID，我们将这两个按照选票的方式表示，例如myid为1，ZXID为0，我们将会表示为(1,0)，由于每台服务端实例优先都是按照自己是Leader发起投票，那么server1默认生成的选票就是(1,0),server2的选票则是(2,0)，以此类推

2.接受到其他服务端实例发来的选票

没台服务端实例都会收到其他服务端实例发来的选票信息，当收到选票后，就会开始校验处理选票的流程

3.校验处理选票

其他服务实例发来的选票，要经过一系列验证，比如是不是本轮投票的选票，是否来自于Looking状态的实例发来的选票，经过校验后，就会和当前实例的选票信息进行pk比较，比较的规则大致如下:

①优先比较ZXID,ZXID不一样的时候，较大的那个选票所在的服务实例作为Leader

②如果两个选票的ZXID相同的话，那么就会比较myid，默认为myid较大的服务实例作为Leader

根据这个规则，我们来看看当server1收到server2的选票后，比较的流程是怎样的，首先两个选票都是第一轮投票选举，所以zxid都是0，接着就要开始比较myid了，server1的myid是1，而server2的myid是2，大于自身的myid，那么server2就应该是Leader，因此server1会更新自己的选票为(2,0)，然后下次发送的时候就是发送新的选票信息出去

4.统计每一次选票

每一次投票以后，都会统计所有的投票，判断是否有过半的实例接受到了相同的选票信息，对与当前server1和server2来说，必须这两个实例的选票都一样才可以算是完成了选举流程，而如果是单数的实例的话，只需要达到(实例数 + 1) / 2的服务端实例接受到一样的选票即可。而经过上面的流程以后，只要server1比较完选票，也发出了(2,0)的选票信息，即可完成选举

5.同步服务端实例状态

一旦选举完成，选出了Leader实例，每个服务实例都会更新自身的状态，如果是Follower，就会变为FOLLOWER，如果是Leader则会变成LEADING状态。

服务端运行期间进行的选举

除了启动zookeeper集群的时候，一般情况下Leader会一直作为集群中的Leader，即使集群中的Follower挂了或者是新机器实例加入集群中，也不会影响Leader。但是一旦Leader无法响应或者是宕机了，Zookeeper集群将无法对外进行服务，而是进行新一轮的Leader选举，而这个选举的过程与初始化启动集群的选举过程大体上是差不多的，但是有区别的是这个时候每个机器将要从自身的运行状态切换到选举状态

1.更新自身状态

当Leader实例挂了以后，剩下的所有Follower实例都会将自身的服务状态变更为LOOKING，然后进行Leader选举流程

2.一样的选举流程

Leader选举的大体流程都是一样的，这里将不再赘述，当完成选举以后，每个服务端实例按照自身的角色，将自身的状态修改为对应的角色状态，这个时候选举完成，Zookeeper集群恢复对外提供服务。

Zookeeper的选举算法

zookeeper的选举的大概流程我们知道了，但是我们都知道，选举的过程是基于算法的，zookeeper的选举算法有哪些呢？在zookeeper中，提供了三种Leader选举的算法，分别是LeaderElection、UDP版本的FastLeaderElection以及TCP版本的FastLeaderElection三种选举算法。而选举算法，则是可以在zoo.cfg配置文件中的electionAlg属性来指定，这三种选举算法分别对应值为0-3，其中0为LeaderElection算法，使用的是UDP协议实现，1代表UDP版本的FastLeaderElection算法，这种算法是非授权模式，2代表的也是UDP版本的FastLeaderElection算法，不过这种使用的是授权模式，3代表是TCP协议实现的FastLeaderElection算法。

不过需要注意的是，从Zookeeper3.4.X版本开始，Zookeeper官方已经废弃了UDP协议实现的0-2这三种Leader选举算法，仅仅保留了3这一种TCP协议实现的FastLeaderElection算法，这也是为什么上面我们介绍选举的大致流程中不针对每一种选举算法进行分析的原因。

Leader选举的细节

学习了选举的大概流程以后，我们发现整体流程和算法的设计不难，但是具体如何处理常见的问题的？这个时候我们需要深入细节来学习，首先Zookeeper为了处理不同情况，设计了多个服务端的状态，这个状态的定义在org .apache .
zookeeper . server.quorum .QuorumPeer. ServerState 类中，分别如下:

①LOOKING：寻找Leader服务的状态，处于当前状态后，将会进行Leader选举流程

②FOLLOWING：代表当前服务端处于跟随者状态，表明是Follower服务

③LEADING：代表当前服务端处于领导者状态，表明是Leader服务

④OBSERVING：观察者状态，表明是Observer服务

前面我们也提到过，每次发出选票后，选票中包含了基本的元素，即ZXID和myid，而这个选票的定义在 apache.zookeeper.server.quorum.Vote类，代码如下:

final private int version;
final private long id;
final private long zxid;
final private long electionEpoch;
final private long peerEpoch;

我们把常见的几个属性进行说明，如下:

属性	说明
id	被选举的SID
zxid	当前Leader的事物ID
electionEpoch	逻辑时钟，解析出来的，当前处于第几轮选举投票，每次进入新一轮投票后，都会加1
peerEpoch	当前被选举的Leader的epoch
state	当前服务所处于的状态

学习了这些后，我们来看看选举的通信，前面我们有聊过CilentCnxn是Zookeeper客户端中用于处理I/O网络通信的管理器，而对应的Zookeeper的server中也有一个类–QuorumCnxManager类来接受和处理Leader选举中的通信，而整个过程可以划分几个部分，大致如下:

消息队列处理消息

在QuorumCnxManager类中维护了很多队列，用于保存接受到的、等待发送的消息，还定义了消息发送器等，除了接受队列以外，其他的队列都是按照SID分组的集合。其中常见的队列和属性定义如下:

recvQueue：消息接受队列，用于存放接受来的所有的消息
queueSendMap：消息待发送队列，用于保存等待发送的消息集合，定义为一个Map，按照SID分组设置为key，并且每一个SID对应的都维护了一个队列，保证收发消息互不影响
senderWorkMap：发送器集合，每一个senderWork发送器都对应一个远程连接的zookeeper，负责发送消息，在senderWorkMap内部，也是按照SID分组进行维护的。
lasteMessageSent：最近发送的消息，在这个集合中，会为每一个SID维护一个最新发送的消息

建立连接

为了能彼此之间通信，zookeeper集群中的实例需要两两建立连接，QuorumCnxManager类在启动的时候会床架一个ServerSokect来监听Leader选举的通信端口，在接受到请求的时候，会调用receiveConnection函数来处理，但是为了避免重复的创建TCP连接，Zookeeper建立了一个规则，只允许SID大的机器往SID小的机器建立连接，当连接连理后，根据远程服务实例的SID创建对应的senderWorker和对应的消息接收器RecvWorker

消息接受和发送

当消息接收器不停的收到消息后，会将其保存在recvQueue队列中，消息发送比较简单，由于每一个SID都有一个维护的独立的SendWorker，只需要不停的从queueSendMap获取要发送的数据进行发送即可，发送完毕后，会将刚刚发送的消息存入lasteMessageSent中，但是需要注意的是，当发现带发送消息的队列是空的时候，就会从lasteMessageSent中获取刚刚发送的消息，然后再次作为消息发送出去，这么设计的原因是为了防止接受方没有收到消息，或者是收到消息后挂了，导致消息没处理完，因为Zookeeper自身对重复消息有处理机制，因此重复发送消息，可以保证能正确处理消息