Zookeeper

Posted on 2022-11-05 Edited on 2022-11-22

基础

Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。

提供的服务包括：统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。

数据模型的结构与文件系统类似,整体上来看是一棵树,每个节点叫做一个ZNode.每个ZNode默认能够存储1MB数据,每个ZNode可以通过其路径唯一标识.

结点状态stat的属性

cZxid数据结点创建时的事务ID——针对于zookeeper数据结点的管理：我们对结点数据的一些写操作都会导致zookeeper自动地为我们去开启一个事务，并且自动地去为每一个事务维护一个事务ID
ctime数据结点创建时的时间
mZxid数据结点最后一次更新时的事务ID
mtime数据结点最后一次更新时的时间
pZxid数据节点最后一次修改此znode子节点更改的zxid
cversion子结点的更改次数
dataVersion结点数据的更改次数
aclVersion结点的ACL更改次数——类似linux的权限列表，维护的是当前结点的权限列表被修改的次数
ephemeralOwner如果结点是临时结点，则表示创建该结点的会话的SessionID；如果是持久结点，该属性值为0
dataLength数据内容的长度
numChildren数据结点当前的子结点个数

结点类型

临时节点：该节点的生命周期依赖于创建它们的会话。一旦会话( Session）结束，临时节点将被自动删除，当然可以也可以手动删除。虽然每个临时的 Znode都会绑定到一个客户端会话，但他们对所有的客户端还是可见的。另外，Zookeeper的临时节点不允许拥有子节点
持久化结点：该结点的生命周期不依赖于会话，并且只有在客户端显示执行删除操作的时候，它们才能被删除
持久化顺序编号节点：创建节点时设置顺序标识,顺序号是一个单调递增的计数器,由父节点维护
临时顺序编号节点：客户端与 Zookeeper断开连接后，该节点被删除，只是Zookeeper给该节点名称进行顺序编号

SID：服务器ID。用来唯一标识一台ZooKeeper集群中的机器，每台机器不能重复，和myid一致。
ZXID：事务ID。ZXID是一个事务ID，用来标识一次服务器状态的变更。在某一时刻，集群中的每台机器的ZXID值不一定完全一致，这和ZooKeeper服务器对于客户端“更新请求”的处理逻辑有关。
Epoch：每个Leader任期的代号。没有Leader时同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加

选举Leader规则：

Paxos算法：一种基于消息传递且具有高度容错特性的一致性算法。
Paxos算法解决的问题：就是如何快速正确的在一个分布式系统中对某个数据值达成一致，并且保证不论发生任何异常，都不会破坏整个系统的一致性。

Paxos算法描述：

在一个Paxos系统中，首先将所有节点划分为Proposer（提议者），Acceptor（接受者），和Learner（学习者）。（每个节点都可以身兼数职）。
一个完整的Paxos算法流程分为三个阶段：
Prepare准备阶段
- Proposer向多个Acceptor发出Propose请求Promise（承诺）
- Acceptor针对收到的Propose请求进行Promise（承诺）
Accept接受阶段
- Proposer收到多数Acceptor承诺的Promise后，向Acceptor发出Propose请求
- Acceptor针对收到的Propose请求进行Accept处理
Learn学习阶段：Proposer将形成的决议发送给所有Learners

Paxos 算法缺陷：在网络复杂的情况下，一个应用 Paxos 算法的分布式系统，可能很久无法收敛，甚至陷入活锁的情况。

Zookeeper 设计为只有一台客户端（Leader）负责处理外部的写事务请求，然后Leader 客户端将数据同步到其他 Follower 节点。即 Zookeeper 只有一个 Leader 可以发起提案。Zab 协议包括两种基本的模式：消息广播、崩溃恢复。

ZAB协议定义的四种节点状态:

ZAB协议针对事务请求的处理过程类似于一个两阶段提交过程

这两阶段提交模型有可能因为Leader宕机带来数据不一致

一旦Leader服务器出现崩溃或者由于网络原因导致Leader服务器失去了与过半 Follower的联系，那么就会进入崩溃恢复模式。

Zab协议崩溃恢复要求满足以下两个要求：

崩溃恢复主要包括两部分：Leader选举和数据恢复。

Leader建立完成后，Leader周期性地向Follower发送心跳，当Leader崩溃后，Follower发现socket通道关闭，于是Follower开始进入到Looking状态，重新回到Leader选举状态，此时集群不能对外提供服务

根据上述要求，Zab协议需要保证选举出来的Leader需要满足以下条件：

完成Leader选举后，在正式开始工作之前（接收事务请求，然后提出新的Proposal），Leader服务器会首先确认事务日志中的所有的Proposal 是否已经被集群中过半的服务器Commit。
Leader服务器需要确保所有的Follower服务器能够接收到每一条事务的Proposal，并且能将所有已经提交的事务Proposal应用到内存数据中。等到Follower将所有尚未同步的事务Proposal都从Leader服务器上同步过，并且应用到内存数据中以后，Leader才会把该Follower加入到真正可用的Follower列表中。