導讀 | 現今本地負載平衡技術已解決伺服器叢集的高可用問題,但是斷電、施工挖斷光纜、自然災害等仍可導致整個資料中心無法運作。另外,中國網路由多家業者組成,各業者之間互聯互通品質不佳已是不爭的事實。因此大型互聯網企業早已不滿足於單一、或者雙活數據中心提供網站服務,越來越多的互聯網企業開始考慮在不同地區、不同運營商部署多個數據中心集群,以實現用戶訪問就近接入、負載平衡和故障容災。 |
現今本地負載平衡技術已解決伺服器叢集的高可用問題,但是斷電、施工挖斷光纜、自然災害等仍可導致整個資料中心無法運作。另外,中國網路由多家業者組成,各業者之間互聯互通品質不佳已是不爭的事實。因此大型互聯網企業早已不滿足於單一、或者雙活數據中心提供網站服務,越來越多的互聯網企業開始考慮在不同地區、不同運營商部署多個數據中心集群,以實現用戶訪問就近接入、負載平衡和故障容災。
提到多資料中心部署,就不可避免需要面對以下三個問題。
1. 多個資料中心流量如何分配?
2. 監控怎麼及時發現網路故障?
3. 多個資料中心服務如何容災?
如果這三個問題無法有效解決,將會導致使用者存取品質不佳、服務黑洞、以及客戶的投訴。而網站背後的維運人員,則會頻繁受到銷售、PM、領導的Challenge!淪為背黑鍋的對象。令人欣喜的是,阿里雲產品雲端解析DNS,現已協助中小企業解決多資料中心的流量負載平衡、實現用戶就近接取、故障及時發現和即時容災切換。
破局 資料中心流量負載平衡#在多個資料中心部署服務時,必然需要面對不同資料中心存取頻寬不同、伺服器叢集負載能力不同、以及營運成本等諸多因素。所以需要針對不同的因素設計與之相符的流量分配比例,那麼如何能夠精確的分配訪問流量呢?雲端解析DNS為您提供了一些參考方案。
雲端解析DNS是一款經過特殊設計的智慧DNS系統,能快速辨識出IP位址所在的位置資訊(包括國家、省、市和營運商等),並且可以向不同來源的DNS查詢回應不同的IP位址,實現企業就近接取、降低跨網流量的需求、以及灰階發布等需求。同時,針對相同位置不同服務能力的資料中心集群,可以透過WRR(Weighted Resource Record)來設定整體流量分配方案。
例如:example.com公司的www官網,有6個資料中心,其中華北電信兩個、華東聯通兩個、另外兩個託管在阿里雲BGP資料中心,
1. 華東聯通兩個資料中心的頻寬比例是3 :7,透過雲端解析設定線路內負載平衡時,將兩個資料中心服務IP位址的權重分別設定成3和7, 達到華東聯通訪問流量依30%和70%分配的比例;
2. 華北電信兩個資料中心的頻寬比例為1 :1,透過雲端解析設定線路內負載平衡時,將兩個資料中心服務IP位址的權重分別設定成1,達到各佔華北電信存取流量50%的配置比例;
3.阿里雲BGP 兩個Region的ECS數量比例是8 :2,當透過雲解析設定線路內負載平衡時,將兩個Region公網彈性IP位址的權重分別設定成8和2, 達到存取流量依照80%和20%分配的比例;
4.網路監控對各資料中心的服務IP進行即時監控;
5.網路監控週期性將監控結果回饋給雲端解析DNS;
6.用戶向華北電信dns發起www.example.com DNS查詢請求;
7.華北電信dns收到用戶的查詢後如果沒有快取該域名,則向雲解析DNS發起域名查詢;
8.雲端解析DNS收到華北電信的DNS查詢時,輪詢回應IP位址3.3.3.3和4.4.4.4。此時一半華北電信DNS得到的結果時3.3.3.3,另半華北電信DNS得到的結果時4.4.4.4。同理,雲解析DNS收到華東聯通的DNS查詢時,先連續返回3次5.5.5.5,再連續返回7次6.6.6.6,然後重複執行,此時30%的華東聯通DNS得到的結果是3.3 .3.3,剩下70%得到的結果是4.4.4.4。
9.華北電信DNS收到雲端解析DNS的回應後會快取網域名稱解析結果,並回傳給最終查詢用戶。
10. 最終實現50%的華北電信用戶訪問3.3.3.3上的網站服務,另外50%華北電信用戶訪問4.4.4.4上的網站服務
#1.雲端解析DNS在透過智慧解析和WRR幫助中小企業實現就近訪問以及流量分配的同時,有效的結合阿里雲分散式監控,利用全網撥測探針對網站的解析記錄進行即時監控。
2.雲端解析DNS的網路監控目前已支援HTTP/HTTPS、自訂URL、在提供5個真實阿里巴巴撥測節點基礎上,優選了15個三大業者優質撥測點。同時多達50個監控任務數的配置全面領先競爭對手,確保能及時發現宕機故障,增加監控覆蓋率。
3.低至1分鐘的監控頻率,相當於您的網站每3秒鐘,就可以獲得一次健康檢測,最快可以宕機後3分鐘內檢測出故障,並透過全球負載平衡功能完成故障切換。
4.為了防止誤警報現象發生,我們將宕機判斷閾值設定為50%,即50%的節點監控異常時判定為宕機故障。
5.當然DNS生效也受到營運商快取TTL的影響,建議設定主機記錄TTL為60秒。
6.如果你是行動裝置開發者,推薦配合阿里雲HTTPDNS服務同時使用,故障切換更靈敏。
故障隔離
#
在網站服務運作的過程中,故障不可避免總是會發生。那麼如何做好故障隔離呢?雲端解析DNS有以下一些實踐,可供中小企業使用。
1.華北電信一個資料中心叢集4.4.4.4因異常原因出現大面積故障,網站服務中斷,使用者存取失敗;
2.網站監控在2分鐘內發現4.4.4.4叢集故障,同時通知雲端解析DNS系統暫停華北電信:4.4.4.4的IP位址解析;
3.雲解析DNS暫停故障IP解析後,只向華北電信DNS查詢返回IP位址:3.3.3.3,同時雲解析DNS解析日誌會記錄下故障時間、IP位址、暫停操作訊息,並透過簡訊和郵件通知您的維運工程師。
4.最終實現將用戶的存取流量全部轉移至華北電信資料中心:3.3.3.3。
故障復原
#
當網站恢復服務後,如何便捷的遷移會流量?
1.在華北電信用戶的訪問流量全部遷移至3.3.3.3後,4.4.4.4相當於離線狀態,你可以組織相關技術同學對故障集群進行修復。
2.修復完成、測試通過後,監控系統能自動偵測到華北電信資料中心4.4.4.4的網站服務恢復正常,並通知雲端解析DNS恢復華北電信4.4.4.4 的IP位址解析,
3.雲端解析DNS收到華北電信的DNS查詢時,輪詢回應IP位址3.3.3.3和4.4.4.4。經過一段時間後,華北電信DNS有一半的結果是3.3.3.3,另一半華北電信DNS得到的結果是4.4.4.4。
4.最終用戶的訪問流量會平滑的過度到原始配置各50%的比例,確保訪問流量在恢復時平滑、用戶無感知。
#對於大型網路企業,必須要考慮的一點是在災難性情況發生時,如何保證用戶訪問正常
1.由於某些不可抗拒的原因,華北電信的資料中心兩個存取IP位址:3.3.3.3、4.4.4.4全部故障,並無法及時恢復;
2. 網站監控及時發現故障,並通知雲端解析DNS暫停所有華北電信線路下IP解析;
3.雲端解析DNS暫停解析後,會啟用線路間負載平衡策略,向華北電信用戶的DNS查詢傳回阿里雲BGP Region位址:1.1.1.1、2.2.2.2;
4.最終實現將整體華北電信用戶的存取流量調度至預設線路阿里雲BGP Region:1.1.1.1、2.2.2.2,保障在極端情況下,依然能夠向華北電信用戶提供正常的服務
雲端解析DNS是一種高可用性、高可擴展的權威DNS服務和DNS管理服務。提供了多種全球負載平衡策略,幫助中小企業快速、準確的將用戶請求路由至您的資料中心,同時具備高可用容災切換能力,實現在一些資料中心故障的情況下,仍然能保證中小企業的網站服務可存取。
未來雲端解析DNS也會將與更多的阿里雲產品結合,例如SLB、ECS、CDN、雲盾等。形成立體化的高可用網站解決方案,從訪問入口到後端服務助力中小企業實現全鏈路負載平衡。
以上是優化容災部署,去掉維運責任的詳細內容。更多資訊請關注PHP中文網其他相關文章!