搜尋
首頁資料庫mysql教程分布式选主 -- 利用Mysql ACID和Lease协议实现选主和高可用

? ? ? 在实际生产开发中,遇到一些多节点共存,需要选主,并且要实现HA自动容错的场景,思考了写方法拿出来和大家分享一下。 Lease协议,Mysql ACID 高可用选主方案设计 适用场景 Java语言实现描述 进一步优化 ? ? ? 系统中有很多应用场景要类似主从架构,主

? ? ? 在实际生产开发中,遇到一些多节点共存,需要选主,并且要实现HA自动容错的场景,思考了写方法拿出来和大家分享一下。

  1. Lease协议,Mysql ACID
  2. 高可用选主方案设计
  3. 适用场景
  4. Java语言实现描述
  5. 进一步优化

? ? ? 系统中有很多应用场景要类似主从架构,主服务器(Master)对外提供服务,从服务器(Salve)热备份,不提供服务但随时活着,如果Master出现宕机或者网络问题,Slave即可接替Master对外服务,并由Slave提升为Master(新主)。典型的多节点共存, 但只能同时存在一个主,并且所有节点的状态能统一维护

? ? ? 大家一定首先想到了著名的Paxos算法( http://baike.baidu.com/view/8438269.htm)。简单的说,Paxos通过每个节点的投票算法,来决议一个事情,当多余1/2个节点都投票通过时,Paxos产生一个唯一结果的决议,并通知各个节点维护这个信息。例如Paxos的选主,首先产生一个关于某个节点希望当Master的投票,然后各个节点给出反馈,最终Paxos集群维护唯一的Master的结论。Zookeeper就是Paxos的一种实现。这种场景最适合用zookeeper来选主, 但zookeeper有个明显的缺点,当存活的节点小于zookeeper集群的1/2时,就不能工作了。比如zk有10各节点,那么必须满足可用的节点大于5才可。

? ? ? 在实际环境中,如果对Master要求不是那么严格的话,可以通过某些改进和取舍来达到目的。比如可能在秒级别允许Master暂时不能访问、选主时间内可能存在一定的冲突但通过再次选主即可。本人设计了一个简易的利用Mysql一致性和简易版Lease来workaround。

Mysql ACID保证了一条数据记录的一致性、完整性,不会出现多进程读写的一致性问题和唯一正确性。Lease协议(协议细节可以Google之)通过向Master发送一个lease(租期)包,Master在这个lease期之内充当主角色,如果lease期到了则再次去申请lease,如果lease期到了,但是网络除了问题,这时Master可以i主动下线,让其他节点去竞选Master。举个例子,三个节点A、B、C经过第一轮选主之后,A成为Master,它获得了10秒的lease,当前时间假设是00:00:00,那么它Master地位可以用到00:00:10,当时间到达00:00:10时,A、B、C会重新进行Master选举,每个节点都有可能成为Master(从工程的角度触发,A继续为Master的概率更大),如果这时候A的网络断了,不能联通B、C的集群了, 那么A会自动下线,不会去竞争,这样就不会出现“脑裂”的现象。

? ? ??

? ? ? ?---------------------------------------------- 华丽的分割线 ----------------------------------------------

? ? ??

? ? ? ? 设计方案如下:(server代表集群中的一台机器,也可看作一个进程,server之间是平等的)

  1. 各个server之间用ntpserver时间同步(保证服务器之间秒级同步即可)
  2. 各个server持有一个唯一ID号(ip+进程号),通过此id唯一标识一个server实例
  3. 各个server定义一个lease租期,单位为秒
  4. Mysql唯一表唯一一条记录维护全局Master的信息,ACID保证一致性
  5. Master Server每半个lease期向Mysql更新如上的唯一一条记录,并更新心跳,维护Master状态
  6. Slaver Server每半个lease周期从mysql获取Master Server信息,如果数据库中Master的Lease超过了当前时间(heartbeat_time+ lease > current_time),则申请当Master。

? ? ? 这其中比较棘手的问题是:

? ? ? ? 1、由于数据库访问和休眠的时间(lease的一半),有时延的存在,要处理Mysql异常、网络异常。

? ? ? ? 2、可能存在同时抢占Master的server,这个时候就需要一个验证机制保证为抢到Master的server自动退位为Slaver


? ? ? 下面给出图实例 :(10.0.0.1为Master)


? ? ?10.0.0.1 crash了。mysql中维护的10.0.0.1的主信息已过期,其他节点去抢占



? ? ? 各个节点再次读取数据库,查看是否是自己抢占成功了:



之后,10.0.0.3作为Master对外服务。此时如果10.0.0.1重启,可作为Slaver。如果10.0.0.1因为网络分化或者网络异常而不能维护心跳,则在超过自身lease时自动停止服务,不会出现“双Master”的现象。


? ? ? 每个Server遵循如下流程:



? ? ? ? 数据库设计:


? ? ? ? 某一时刻,数据库中Master的信息:

?

? ? ? ?当前时间: 45分15秒

? ? ? ?当前Master Lease :6秒

? ? ? ?当前Master Lease可用到: 45分21秒

??

? ? ? ?---------------------------------------------- 华丽的分割线?----------------------------------------------

? ? ? ?3、适用的场景

? ? ? ? 一、生命周期内可使用Mysql、并且各个server之间时间同步。

? ? ? ? 二、需要集群中选出唯一主对外提供服务,其他节点作为slaver做standby,主lease过期时竞争为Master

? ? ? ? 三、对比zookeeper,可满足如果集群挂掉一半节点,也可正常工作的情况,比如只有一主一备。

? ? ? ? 四、允许选主操作在秒级容错的系统,选主的时候可能有lease/2秒的时间窗口,此时服务可能不可用。

? ? ? ? 五、允许lease/2秒内出现极限双Master情况,但是概率很小。


? ? ? ? ---------------------------------------------- 华丽的分割线?----------------------------------------------

? ? ? ? 4、Java语言实现描述

      一些配置信息和时间相关、休眠周期相关的时间变量
        final long interval = lease / intervalDivisor;
        long waitForLeaseChallenging = 0L; 
        lease = lease / 1000L;
        long challengeFailTimes = 0L; 
        long takeRest = 0L; 
        long dbExceptionTimes = 0L; 
        long offlineTime = 0L; 
        Random rand = new Random();
        Status stateMechine = Status.START;
        long activeNodeLease = 0L; 
        long activeNodeTimeStamp = 0L; 

? ? ? ? 数据库异常的处理:
            KeepAlive keepaliveNode = null;
            try {
                /* first of all get it from mysql */
                keepaliveNode = dbService.accquireAliveNode();
                if (stateMechine != Status.START && keepaliveNode==null)
                    throw new Exception();
                // recount , avoid network shake
                dbExceptionTimes = 0L;
            } catch (Exception e) {
                log.fatal("[Scanner] Database Exception with times : " + dbExceptionTimes++);
                if (stateMechine == Status.OFFLINE) {
                    log.warn("[Scanner] Database Exception , OFFLINE ");
                } else if (dbExceptionTimes >= 3) {
                    log.fatal("[Scanner] Database Exception , Node Offline Mode Active , uniqueid : " + uniqueID);
                    stateMechine = Status.OFFLINE;
                    dbExceptionTimes = 0L;
                    offlineTime = System.currentTimeMillis();
                    online = false;
                } else
                    continue;
            }

? ? ? ? 总的循环和状态机的变迁:
        while (true) {
            SqlSession session = dbConnecction.openSession();
            ActionScanMapper dbService = session.getMapper(ActionScanMapper.class);
            KeepAlive keepaliveNode = null;
            try {
                /* first of all get it from mysql */
                keepaliveNode = dbService.accquireAliveNode();
                if (stateMechine != Status.START && keepaliveNode==null)
                    throw new Exception();
                // recount , avoid network shake
                dbExceptionTimes = 0L;
            } catch (Exception e) {
                log.fatal("[Scanner] Database Exception with times : " + dbExceptionTimes++);
                if (stateMechine == Status.OFFLINE) {
                    log.warn("[Scanner] Database Exception , OFFLINE ");
                } else if (dbExceptionTimes >= 3) {
                    log.fatal("[Scanner] Database Exception , Node Offline Mode Active , uniqueid : " + uniqueID);
                    stateMechine = Status.OFFLINE;
                    dbExceptionTimes = 0L;
                    offlineTime = System.currentTimeMillis();
                    online = false;
                } else
                    continue;
            }
            try {
                activeNodeLease = keepaliveNode!=null ? keepaliveNode.getLease() : activeNodeLease;
                activeNodeTimeStamp = keepaliveNode!=null ? keepaliveNode.getTimestamp() : activeNodeTimeStamp;
                takeRest = interval;
                switch (stateMechine) {
                    case START:
                        if (keepaliveNode == null) {
                            log.fatal("[START] Accquire node is null , ignore ");
                            // if no node register here , we challenge it
                            stateMechine = Status.CHALLENGE_REGISTER;
                            takeRest = 0;
                        } else {
                            // check the lease , wether myself or others 
                            if (activeNodeLease = (rand.nextLong() % maxChallenge) + minChallenge) {
                                // need't challenge anymore in a long time
                                takeRest=maxChallengeAwaitInterval;
                                stateMechine = Status.HEARTBEAT;
                                challengeFailTimes = 0L;
                                log.info("[CHALLENGE_COMPLETE] Challenge Try Times Used Up , let's take a long rest !");
                            } else {
stateMechine = Status.HEARTBEAT;
                                log.info("[CHALLENGE_COMPLETE] Challenge Times : " + challengeFailTimes + ", Never Give Up , to[" + stateMechine + "]");
                            }
                        }
                        break;
                    case OFFLINE :
                        log.fatal("[Scanner] Offline Mode Node with uniqueid : " + uniqueID);
                        if (System.currentTimeMillis() - offlineTime >= maxOfflineFrozen) {
                            // I am relive forcely
                            log.info("[Scanner] I am relive to activie node  , uniqueid : " + uniqueID);
                            stateMechine = Status.HEARTBEAT;
                            offlineTime = 0L;
                        } else if (keepaliveNode != null) {
                            // db is reconnected
                            stateMechine = Status.HEARTBEAT;
                            offlineTime = 0L;
                            log.info("[Scanner] I am relive to activie node  , uniqueid : " + uniqueID);
                        }
                        break;
                    default :
                        System.exit(0);
                }
                session.commit();
                session.close();
                if (takeRest != 0)
                    Thread.sleep(takeRest);
                log.info("[Scanner] State Stage [" + stateMechine + "]");
            } catch (InterruptedException e) {
                log.fatal("[System] Thread InterruptedException : " + e.getMessage());
            } finally {
                log.info("[Scanner] UniqueID : " + uniqueID + ", Mode : " + (online?"online":"offline"));
            }
        }
    }
    enum Status {
        START, HEARTBEAT, CHALLENGE_MASTER, CHALLENGE_REGISTER, CHALLENGE_COMPLETE, OFFLINE
    }

5 进一步的优化

? ? ? ? 一、在各个系统竞争Master时,可能因为节点太多,冲突概率较大,可以通过在数据库中增加字段Status状态字段,标识是否有其他节点正在争抢Master,如果是,则可以暂停等一下,然后在尝试,如果那个节点成功抢到了Master,则会省去很多节点冲突的概率。

? ? ? ??

? ? ? ? 二、由于出现很极端的情况,因为竞争Master的时间和lease时间都是固定的,则可能出现”时间轴共振“的现象,最典型的如一直在竞争Master但是一直失败,然后一直重试。所有的server在同一时刻都在赶同样的事情。可以通过增加时间随机性解决问题,如尝试抢占Master连续失败,则通过random产生随机数然后sleep,抵消共振。




作者:GugeMichael 发表于2013-5-23 18:13:00 原文链接

阅读:91 评论:0 查看评论

分布式选主 -- 利用Mysql ACID和Lease协议实现选主和高可用

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
MySQL如何處理數據複製?MySQL如何處理數據複製?Apr 28, 2025 am 12:25 AM

MySQL通過異步、半同步和組複製三種模式處理數據複製。 1)異步複製性能高但可能丟失數據。 2)半同步複製提高數據安全性但增加延遲。 3)組複製支持多主複製和故障轉移,適用於高可用性需求。

您如何使用解釋性語句分析查詢性能?您如何使用解釋性語句分析查詢性能?Apr 28, 2025 am 12:24 AM

EXPLAIN語句可用於分析和提升SQL查詢性能。 1.執行EXPLAIN語句查看查詢計劃。 2.分析輸出結果,關注訪問類型、索引使用情況和JOIN順序。 3.根據分析結果,創建或調整索引,優化JOIN操作,避免全表掃描,以提升查詢效率。

您如何備份並還原MySQL數據庫?您如何備份並還原MySQL數據庫?Apr 28, 2025 am 12:23 AM

使用mysqldump進行邏輯備份和MySQLEnterpriseBackup進行熱備份是備份MySQL數據庫的有效方法。 1.使用mysqldump備份數據庫:mysqldump-uroot-pmydatabase>mydatabase_backup.sql。 2.使用MySQLEnterpriseBackup進行熱備份:mysqlbackup--user=root--password=password--backup-dir=/path/to/backupbackup。恢復時,使用相應的命

MySQL中慢速查詢的常見原因是什麼?MySQL中慢速查詢的常見原因是什麼?Apr 28, 2025 am 12:18 AM

MySQL慢查詢的主要原因包括索引缺失或不當使用、查詢複雜度、數據量過大和硬件資源不足。優化建議包括:1.創建合適的索引;2.優化查詢語句;3.使用分錶分區技術;4.適當升級硬件。

MySQL中有什麼看法?MySQL中有什麼看法?Apr 28, 2025 am 12:04 AM

MySQL視圖是基於SQL查詢結果的虛擬表,不存儲數據。 1)視圖簡化複雜查詢,2)增強數據安全性,3)維護數據一致性。視圖是數據庫中的存儲查詢,可像表一樣使用,但數據動態生成。

MySQL和其他SQL方言之間的語法有什麼區別?MySQL和其他SQL方言之間的語法有什麼區別?Apr 27, 2025 am 12:26 AM

mysqldiffersfromothersqldialectsinsyntaxforlimit,自動啟動,弦樂範圍,子征服和表面上分析。 1)MySqluessLipslimit,whilesqlserverusestopopandoraclesrontersrontsrontsrontsronnum.2)

什麼是mysql分區?什麼是mysql分區?Apr 27, 2025 am 12:23 AM

MySQL分區能提升性能和簡化維護。 1)通過按特定標準(如日期範圍)將大表分成小塊,2)物理上將數據分成獨立文件,3)查詢時MySQL可專注於相關分區,4)查詢優化器可跳過不相關分區,5)選擇合適的分區策略並定期維護是關鍵。

您如何在MySQL中授予和撤銷特權?您如何在MySQL中授予和撤銷特權?Apr 27, 2025 am 12:21 AM

在MySQL中,如何授予和撤銷權限? 1.使用GRANT語句授予權限,如GRANTALLPRIVILEGESONdatabase_name.TO'username'@'host';2.使用REVOKE語句撤銷權限,如REVOKEALLPRIVILEGESONdatabase_name.FROM'username'@'host',確保及時溝通權限變更。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中