Go语言学习——深入学习一致性算法Raft

1.简介
了解分布式的同学都知道，在分布式理论中有个CAP定理，CAP代表分布式系统的三个要素：一致性（C）、可用性（A）、分区容错性（P），本文要介绍的Raft算法，它就是实现日志复制一致性的算法；之前用ETCD做服务注册、发现时，有接触过一点Raft，但是，了解的不够深入，正好前段时间休了个长假，就研读论文、结合网上资料，按照自己的理解、重新整理如下，如有不当或者疑问之处，还请各位大佬留言、多多指点。

1.1由来
Paxos是1990年由Lamport提出，但一直以来，该算法被抱怨是难以理解、晦涩，针对Paxos算法晦涩难懂、工程实现复杂的问题，斯坦福大学的两位教授Diego Ongaro和John Ousterhout决定设计一种更容易理解的一致性算法，后来在发表的"In search of an Understandable Consensus Algorithm"论文中提出了Raft算法（论文地址是： https://raft.github.io/raft.pdf ），相比之下，Raft更容易理解、易于工程实现。

1.2结构
    论文共有十二章节，每章节的内容是：
    1）一、三、四章节主要是论文简介、分析Paxos存在问题以及Raft设计理念，以understandability为目标
    2）二章节介绍了复制状态机模型，复制状态机对外整体的一致性基于日志复制的一致实现
    3）五章节是实现核心，围绕算法核心——"leader选举"、"log复制"、"safety安全性"三部分介绍
    4）六、七、八章节分别介绍了集群配置变更、日志压缩以及与客户端交互
    5）剩余的章节就是算法效果评估、相关工作以及结论、感谢

本文并非是对论文的逐章翻译，是按照自己的理解重新编排，主要是针对第五章核心部分，首先是结构、术语介绍，然后是leader选举、log复制等核心流程介绍，再结合安全性对核心流程完善。

2.实现
    Raft算法主要是围绕两点实现——leader选举和log复制，下面重点介绍。
2.1概念
2.1.1术语
2.1.1.1服务角色
    集群中，服务角色有三种：
    1）leader 对外负责与客户端交互，对内负责日志复制、心跳通知
    2）candidate 发起选举，竞选leader，确保集群可用性
    3）follower 接收leader日志，检测leader心跳，选举投票

2.1.1.2RPC
服务间通信都是通过RPC实现的，RPC也有三种类型：
    1）RequestVote Rpc 请求投票RPC，由candidate节点发出
    2）AppendEntry Rpc 日志复制、心跳检测RPC，由leader节点发出
    3）Snapshot Rpc 基于快照的日志同步，由leader节点发出
    其中，RequestVote Rpc和AppendEntry Rpc是常用RPC，Snapshot Rpc感兴趣的可以了解；Raft算法中，RPC都是幂等、无伤害的，如果RPC响应异常，会继续请求；如果RPC已经执行过，则会忽略。

2.1.1.3其他
    Raft算法实现中，还用到其他概念：
    1）term 任期，算法的重要组成部分，在leader选举和log复制中都有用到
    2）committed 日志条目的状态，这表示已提交状态
    3）nextIndex 同步索引，leader要发给follower的下个日志条目的索引
    4）election timeout 选举超时时间，是发起新一轮选举的超时时间

    对于committed补充几点，后面也会提到：
    1）如果一个日志条目被leader复制到绝大多数服务上，则认为该日志条目是 committed 状态
    2）如果一个日志条目是committed状态，则该日志条目之前的日志条目都是committed状态，无论之前的日志条目是由哪个leader在哪个term创建的
    3）leader会维持一个已提交日志条目的最大索引（highest committed index），该索引用于告知follower日志条目的提交进展，follower会将提交日志应用到本地状态机

2.1.2复制状态机
    复制状态机一般用于实现分布式系统中的容错问题，如果集群里的服务都能保持相同状态，即使某些机器故障，集群依旧可以正常、可靠的对外提供服务；论文中复制状态机的模型结构是：

    复制状态机的典型实现方式就是使用日志复制，每个服务都保存一份日志，而这些日志都按照相同的顺序保存着相同的命令，这样每个状态机都可以按照相同的日志顺序执行命令，并最终处于相同的状态，而如何保持复制日志的一致性就是一致性算法的核心工作，如上图所示：
    1）每个服务上都有一个一致性模块
    2）主服务上的一致性模块用于接收客户端的命令、并添加到自己的服务日志上
    3）主服务上的一致性模块会在和其他服务上的一致性模块联系、进行日志复制
    4）一旦日志成功复制，每个服务的状态机都能按照相同的日志顺序执行命令，并产生相同的输出，从而，整个服务对外体现整体的独立、高可用

2.2leader选举
Raft算法是个强Leader的算法，leader不仅参与选举，还涉及日志复制；而Raft算法中leader选举的基本流程是：
如果follower在选举超时后，一直收不到leader的心跳检测（如：集群初始启动阶段、leader节点宕机），则会进入candidate状态，然后，发起新的选举，并向其他服务请求投票，如果获得大多数服务的投票，该服务成为新的leader节点，负责与客户端交互以及向follower服务发送心跳，如果竞选失败，则依据情况，进入follower状态或者继续发起下一轮选举。

2.2.1状态转换
    论文中有列leader选举的基本流程图，但考虑涉及到的细节较多，故重新画了一个服务状态转换的流程图：

    如上图所示，各服务节点在状态转换中的作用：
    leader服务：
    1）负责与客户端交互，将客户端发送的命令封装成entry，追加到日志中
    2）心跳维护，定时发送空AppendEntry RPC到其他服务，让其维护follower状态
    3）将日志复制到其他服务，本部分到日志复制中再细说

    candidate服务：
    1）发起选举，向集群中其他服务发起投票
    2）根据选举结果不同，进入不同的处理流程，这块可以详看选举流程

    follower服务
    1）RPC响应——响应leader、candidate发起的心跳、投票、日志复制等RPC
    2）选举超时——leader心跳接收失败，待选举超时后，进入candidate状态，发起新的选举

2.2.2选举过程
    选举超时后，follower节点会进入candidate状态、发起选举：

    选举细节如上图所示，有两个地方细说下：
    1）每次新的选举都会引发term自增，如上图中，follower服务首先将term自增加1，然后进入candidate状态
    2）candidate向集群其他服务发起投票RPC，即RequestVote RPC，投票结果分三种情况：
        1）投票成功，成为leader，发送心跳告知集群
        2）其他服务成为leader，收到新leader的心跳后，转入follower状态
        3）没有服务胜出，都没有得到大多数投票，则等待选举超时，进入下一轮选举，即进入"脑裂"情况
    关于投票，有一点需要注意下，每个服务在每个任期内只能投票一次，并且有权拒绝投票；补充一点：通过随机选举超时时间，减少碰撞机会实现，避免选举"脑裂"情况。

2.2.3任期逻辑
    在Raft算法中，任期起到逻辑时钟的效果，主要是用于控制leader选举和log复制，它的特点是：
    1）整型，取值从0开始，单调递增
    2）term取值与election强相关，每开始一次新的选举，term都会加1
    任期涉及到的逻辑判断比较简单，主要是进行大小比较，总结来说，处理场景分为：
    1）如果收到的RPC中任期大，则更新服务任期，并进行状态转换，进入、维持follower状态，如：leader状态遇到高任期的请求，则更新自己的term、进入follower状态，等待新的选举
    2）如果收到的RPC中任期小，则不理会，如：日志复制中，会检测任期，如果leader的任期小，则follower不理会本次复制，选举也是一样

2.3log复制
Raft算法中，log复制的基本流程是：
leader收到client发送的请求后，会将commands追加到日志中、并以条目的形式存在中，即log entry，然后，通过AppendEntry RPC复制日志，如果成功复制给大多数服务，则通知状态机执行entry并将结果返回给客户端，然后，状态机将日志条目标记为committed，同时，将committed日志条目同步给其他服务。

2.3.1日志构成
日志由条目构成，条目在日志中都进行了编号，每个条目都主要包含三部分信息：1）所属任期term；2）用于状态机执行的命令；3）日志提交标记，如：

2.3.2复制流程
    log复制流程图如下：

    log复制的大致步骤是：
    1）客户端将携带command的请求发给集群（command交由状态机执行）
    2）leader服务负责响应客户端请求（补充一点，如果客户端连接的不是leader服务，该服务
会把leader地址同步给client，让client重连）
    3）leader将受到的请求追加到日志条目中，然后通过RPC复制给其他服务，如果实现大多数复制，则将该日志标记为committed
    4）通知状态机执行日志条目中的command，并将执行结果返回给客户端
    5）leader会记录committed状态下的最大日志索引，然后通过RPC将该索引发给follower，follower会在本地状态机执行对应的日志条目
    由此确保follower和leader日志执行的一致性：按照日志顺序，对于committed日志，按照相同的顺序执行条目中的command；而日志复制中的一致性检测：
    1）new entry的一致性检测
        1）leader在发送AppendEntry RPC复制日志前，会将new entry前面条目的索引、任期包含到RPC中
        2）follower收到RPC后，会检测本地是否有相同索引、任期的条目，如果没有，则拒绝该新条目
    2）old entry的一致性检测（当日志出现不一致时，leader会强制follower复制自己的日志）
        1）leader首先要找出与follower有共同日志的地方，处理的方式是：
            1）leader会为每个follower维持一直next index（初始为leader自己的条目索引），next index是leader要发给follower的下个日志条目的索引
            2）当RPC检测发现leader和follower日志索引不匹配时，follower会拒绝RPC，此时leader会将nextindx减1、然后继续发送RPC直到找出共同部分
        2）找出共同条目后，RPC会通知follower删除冲突条目、并将leader的条目复制到自己日志中
    需要注意的一点是：在Raft算法中，日志复制是单向的，只能从leader服务复制到follower服务，这简化了日志复制流程，后面安全性会再次提到。

2.4安全性
在实际环境中，leader、follower服务都会存在宕机的情况，这会对leader选举和log复制都产生影响，针对可能的异常情况，Raft也提供了安全措施确保一致性。

2.4.1选举约束
leader选举要求一个服务要想成为leader服务，它必须包含之前term中的所有committed日志条目；这块是在投票中处理的，其实现原理是：
candidate发起选举后，会先调用RequestVote RPC向其他服务发起投票，该RPC中会携带记录candidate的日志信息，主要是日志中最后一个条目的索引和任期；其他服务收到该RPC后，会和自己的日志条目比较下，如果candidate的日志过时，则拒绝为其投票（任期越大或者索引越大，说明日志越新）；由此保证日志复制单向，只从leader服务复制到follower服务没有问题、简化日志复制流程。

2.4.2提交历史任期的条目
leader服务只能提交当前任期的日志，不能提交之前任期的日志，根据Log Match Property属性，如果当前任期的日志被提交，则历史任期的日志都会被提交，对此，论文中有个样例，如下图所示，关键是最后一句：

2.4.3计时条件
    简答地说，计时条件就是满足算法流程，不出现紊乱，因为算法涉及心跳广播和选举超时，故其计时条件是：
    broadcastTime << electionTimeout << MTBF
    broadcastTime是RPC广播时长，一般不超过20ms；electionTimeout是选举超时时间，随机范围是150~300ms；MTBF是服务宕机时长。

3.参考资料
    本文参考资料如下，感谢各位大佬：
    1）https://raft.github.io/raft.pdf
    2）https://blog.csdn.net/baijiwei/article/details/78759364
    3）https://blog.csdn.net/baijiwei/article/details/78760308
    4）https://blog.csdn.net/baijiwei/article/details/78819381

用户登录

今日阅读排行

一周阅读排行

关注我