雲端運算帶來了集約化、效率、彈性與業務敏捷的同時,也對雲端上運維提出了前所未有的挑戰。如何面對新科技趨勢的挑戰,建構面向雲端時代的智慧監測平台,讓雲端應用程式獲得更好的保障,是如今擺在每個企業面前的一道難題。
在日前的【T·Talk】系列活動第八期中,51CTO內容中心特別邀請到了乘雲產品VP張懷鵬做客直播間,為大家分享打造雲端時代數位化觀測利器的經驗與思考。 【T·Talk】也將本期精彩內容進行了整理,望諸君能夠有所收穫:
#數位轉型浪潮下的數位化營運痛點
數位轉型與數位經濟建設是當前時代的大趨勢,數位轉型可以說是人類歷史上的第四次工業革命。我們日常的辦公方式、支付方式、購物方式,包括出行方式等,無時無刻不受數位化的影響。簡單來說,目前我們已經由傳統的IT時代邁入了數位化DT的時代。
在數位化DT的時代,數位轉型幾乎重新定義了當前企業的業務以及業務體驗的方式。但隨著各產業數位轉型的不斷深入,越來越多的數位化應用事故也開始逐漸顯露。例如年初某省市的健康碼崩潰、核酸檢測系統異常等,都對社會面造成了非常大的影響。
#根據調查,目前60%的CEO認為數位轉型非常重要,企業也在這部分人群的帶領下大踏步地向數位轉型和人工智慧演進。然而與此形成鮮明對比的是,95%的企業應用並沒有被有效的監控與關注。
目前數位化營運手段,大多都產生於傳統的資料中心時代,大量的工具或技術都沒有考慮到雲端運算的場景。隨著雲端運算的普及,資訊化的場景發生了天翻地覆的變化。應用本身的複雜性呈現爆炸性成長,分散式越來越多,依賴關係也越來越複雜,軟體迭代節奏也越來越快。在這樣的場景下,企業急需建構一個面向DT時代的,基於業務和資料流的一套解決方案。
DT時代產生了太多新的技術、新的場景,例如目前熱度很高的雲端原生,雲端原生的要求加速了傳統運維向應用程式運維的演進。傳統場景存在大量基礎設施,但隨著業務上雲,基礎設施都將託管給營運商或營運商,企業不再需要為傳統的機房管理、弱電管理、硬體的監控、裸金屬的監控、UPS配電及溫濕度煩惱。因此傳統的設備運維也演變成了Site reliability以應用為重心的運維,企業對傳統運維的投入將會變得越來越少。
#目前來說,我們處在轉型為智慧化運維的階段。現在需要做的是讓數位化維運、IT維運變得更輕、效率更快、成本的支出更少。維運團隊的精力需要集中在企業業務本身,業務才是維運人員所需關注的重點問題。這些都會帶來對智慧運維的需求。
企業通往智慧維運的典型科技路徑
1、什麼是智慧維運
關於智慧運維,Forrester和Gartner曾在報告中進行過定義:AIOps是一套將AI和數據科學應用於業務和維運的數據領域,以建立關聯,並能夠提供即時的規範性和預測性答案的軟體系統。 AIOps可以是一套軟體系統,因此它可以是一個落地的產品。 AIOps能夠增強並部分取代傳統的主要的IT維的功能,包括可用性和效能監控、事件關聯和分析、IT的服務管理和自動化。
AIOps ,面向的是Operations,Operations是需要覆寫觀測、管理與處置三個面向。但目前業界整體水準更多的是聚焦在觀測層面。 Forrester對此也給了一個經典的語句:AIOps承諾了更強的可觀察性和穩定性。
Forrester認為,目前AIOps的一個核心價值,就是將事前能力增強,提升並擴展你的可觀測能力。
2、什麼是可觀測性
觀測性最早誕生於控制理論中,指系統可以由外部輸出,推論其內部狀態的程度。在IT領域中,Gartner將可觀測性定義為軟體與系統的特性。具體指根據系統產生的遙測的資料來判定目前系統的狀態以及系統情況,這種能力便是可觀測能力或稱可觀察能力。
#為什麼需要可觀測性?
傳統的監控的技術和工具很難追蹤當前的越來越多的分散式架構中的通訊路徑和依賴關係,在雲端原生的場景或在雲端的場景,依賴關係非常複雜,不再像傳統很多的單體架構的應用。而可觀察性能夠更好地控制複雜系統,透過可觀察性三大資料支柱能夠非常直觀詳細地了解複雜系統的方方面面。
可觀察性不僅只服務於維運,還能服務於開發部門、SRE部門、Support部門、市場部門與Business部門。因此如果能夠將AIOps和可觀察性融合為一體,打造出來一體化的平台,將會得到非常完美的產品,能夠一舉兩得。
3、企業通往智慧維運AIOps 的兩條典型技術路徑
#企業通往IT智慧維運的兩條典型的技術路徑可以形象的歸納為「外掛AIOps」與「內生AIOps」。外掛AIOps,透過旁路的方式將AIOps的平台植入企業IT維的環境中。 AIOps是一個獨立的演算法平台,透過連結企業異源異質的數據,而後來透過資料工程師梳理資料之間的依賴關係,並藉助大數據處理技術,實現專案製的交付。
#內生AIOps強調的是一體化的技術路線,經過內生AIOps引擎,能夠實現資料處理全流程的閉環,不需要資料工程師參與。類似快遞的流程,寄件者的物品相當於資料。拿到資料後,由快遞員實施封裝、倉儲、調度、運輸等操作。但最終收件者收到的就是這個物品,中間的所有的處理環節是不需要寄件者和收件者去處理的。內生AIOps強調這項能力,將AI的能力嵌入一體化觀測平台當中。
技術實現上的差異:
外掛AIOps一般使用傳統的機器學習AI,這種技術本質上是一種統計方法,將Metric、log、事件等資訊進行關聯分析,旨在降低警告的噪音。透過機器學習AI,我們能夠獲得一組關聯告警。因此其需要一定的時間週期,一般來說外掛AIOps需要人工或歷史記錄去提出一個推薦性或可能性的根因。
同時,外掛AIOps需要大量外部資料的依賴,外掛AIOps廠商通常只做演算法平台。資料的清洗、CMDB的實體間的依賴關係等等,都需要外部的資料。因此,想要落地外掛AIOps,需要企業的資訊化運作非常成熟,需要有呼叫資料的前提、有APM的產品、且可觀察性得做的相對完善,才能去做外掛的AIOps。
內生AIOps則提供了一個確定性的人工智慧分析,將確定性的分析結果作為目標,也就是在問題發生後,問題發生原因的根因是確定性的,並且是一個接近即時的結果。內生AIOps維繫了一張實時性非常高的矩陣式依賴關係地圖,這項技術不需要去依賴傳統靜態的CMDB,而是這張依賴關係地圖本身就相當於一張實時的CMDB,能夠將依賴關係進行即時的變化,借助內生的關係實現了管理分析。
企業如何決策選擇適合自己的技術路徑?
在AIOps的落地層面,企業需要考慮的問題也比較多。從企業管理者的角度來說,除了成本、團隊等基礎問題外,還需要考慮不同部門之間的平衡,以及成本、穩定性和效率之間的平衡問題。 AIOps的目標,是既要解決問題,還要合理地解決問題。在保證成本的同時,最大化企業業務的穩定性與效率。
#
在Forrester的一篇報告中提到,企業落地AIOps時有以下幾點關鍵能力需要著重思考:
- AIOps平台與ITOM工具鍊是否能夠無縫集成,是否能高度實現自動化的能力
- AIOps平台非常重視原生數據,原生數據包括雲端原生的依賴關係、雲端原生機器數據的資訊
- 全服務的依賴關係的地圖的自動化和全景的構建
- AIOps的未來是智能化的觀測感知和自動化的落地實踐
- 根因分析和事件補救計劃的自動化程度
- 現代技術營運需要智慧化和自動化
從資料處流程上來看兩種技術路徑的差異:
傳統AIOps平台,也就是外掛AIOps平台在資料處理過程當中會使用到很多工具拼湊組裝,打造一套搖搖晃晃的大數據系統。如果發生工作人員的更換,則很有可能會為新的交接者遺留大量的技術債。
第一步的資料收集環節,需要依賴大量開源與商業工具。第二步將資料注入大數據平台。第三步,人工梳理資料關係以及清洗資料。前三個步驟是非常耗時的。第四步,發現問題、定位問題,這一步AIOps廠商才會參與進來,廠商團隊需要落地到客戶現場駐點按需打造。廠商會詢問需求,並提供相應服務。第五,建置儀表板。第六,系統的擴展,隨著應用系統的規模的擴大,整個系統呈線性成長。
#在整個流程中,資料工程師需要花費將近80%的時間用來做資料的清洗、收集和組織,整個方案需要尖端的維運領域人才,既要是維運專家,還需要懂演算法、懂開發。本身AIOps是一套支撐的系統,是用來解決問題的,但外掛式AIOps很有可能會使維運變得更重,需要一支專門的團隊來維護AIOps平臺本身。
內生AIOps的資料處理流程則非常簡單,一個工具即可解決資料收集。且由其是高度商業化的產品,且具有開箱即用的儀錶板能力,包括引擎等。因此後續的處理流程都是黑盒子的,無需企業過多關心,也不需要業務工程師懂演算法並具備SRE的技術水準。
同時,內生AIOps會隨著企業業務系統的規模的擴展,呈現非線性的成長。包括使用者的團隊以及產品的整個系統,都是呈現非線性成長的。整個方案佈置下來的話,企業只需要要安裝一個Agent,後續很多都是自動化的能力。這使得企業的維運人員能夠將精力聚焦在企業本身的業務。
總結:
業界需要新一代的軟體智慧平台,能夠完全涵蓋整個資料處理流程。將客戶想要的結果直接交付,而不是呈現原始資料。總的來說,在外掛AIOps與內生AIOps兩條技術路徑當中,更推薦企業使用內生的AIOps,其屬於智慧維的新的典範。
#內生AIOps輔助雲端原生運維化繁為簡
內生AIOps平台的目標是建構一個集AIOps和可觀察性於一體的一體化平台。其需要具備觀測能力,且觀測能力要以應用監控為中心,應用監控才是面向最終使用者的現象層。同時,還需整合基礎設施的監控,包括雲端平台的監控以及黑盒的監控。最後還需要具備面向前端的數位體驗的能力。
新的AIOps平台需要打造持續的自動化,從資料的存取到資料結果的輸出實現自動化。需要具備事前能力,擁有預測與預警的能力。
新的AIOps平台需要提供高階的可觀察性,不只是把原始資料、原始零件展示給企業,而是要關注現象、關注體驗,給出準確結果,這樣才能盡可能減少大量噪音對企業帶來的影響與幹擾。
內生AIOps的資料處理模型,有許多差異化的地方,例如在資料收集上面強調一個Agent的能力。在資料處理上面,我們強調指標體系,指標體系的建構和傳統的方式有所不同,我們強調內生AIOps內生於一體化平台。
#NIOps平台主要會從以下五個方面幫助雲端原生運維實現化繁為簡:
- 內生AIOps平台能夠直接取得優質的觀測資料
- 能夠打造持續的自動化能力,對於維運來說,工作效率會更高
- 平台能夠建立一個即時的矩陣式的拓撲,按圖索驥
- 能夠即時輸出影響面分析
- 直指根因,見證成果
1、直接取得優質的觀測資料
首先,直接取得優質的監控資料。一句比較經典的總結是“高品質的觀測來自高品質的遙測”,高品質的後端的分析一定要求高品質的前端的遙測資料的產生。可觀察性關註三大支柱,如果要做高階的可觀測性、內生的AIOps分析,需要五大支柱,除了傳統的追蹤數據、指標、日誌數據,還需要非常關鍵的拓樸數據與程式數據,數據的品質能夠直接決定模型的上限。
直接取得優質的監測數據,這些數據一定是實現非侵入式的、自動化的採集,不用修改原始碼、業務與應用,且能夠實現上下文資訊和自動化的結合。上下文資訊能夠輔助實現真正的根因分析,能夠幫助根因分析提取高保真的背景的信息,能夠幫助平台構建實時的服務流程圖和拓撲圖,進行依賴關係。包含矩陣式的關係拓樸的技術,這些情境資訊也是非常關鍵的。
拓樸圖,主要展示整個應用環境的依賴關係,包括垂直的堆疊和水平的堆疊。服務流程圖是從一個服務或請求的維度去提供整個交易的視圖,透過服務流程圖和拓樸圖,可以說明服務之間所呼叫的序列。服務流程圖顯示的是交易的整個分佈的序列,是有序的,而拓撲圖則是更高級的抽象,顯示的是依賴關係等。
#直接獲得優質的監控關係需要用到商業化的Agent的技術,雖然目前市面上已經有許多開源的工具或免費的工具,但商業化Agent技術有著以下幾個開源工具所沒有的優勢。
- 所採集的代理探針的穩定性、安全性和可靠性有保障
- 探針對宿主機、對於核心業務的資源開銷、效能影響有保障
- 部署和插裝,包括變更,能夠更少地使用手動操作
- 監測能自動植入到動態的方法或容器類別的這些元件當中
- 各種指標取樣精細,原生高保真
- 有足夠的資訊和上下文可供建立一個統一的資料模型
以上優點是很多免費的工具不具備的。內生AIOps平台依賴One Agent技術,Agent擁有邊緣運算的設計,在邊端端點上做了很多資料的聚合、資料的清洗的工作。
2、打造持續自動化
內生AIOps平台的能力,旨在建立持續的自動化。監控複雜的雲端原生環境,一定離不開自動化。包括自動化的部署、自動化的適配、自動化的發現、監控、注入、清洗等一系列自動化。在複雜的雲端原生環境當中,憑人力是難以了解這些端到端的業務的,所以需要用高度的自動化能力來作為輔助工具,去輔助自動運維。
3、建構即時矩陣式關係地圖
內生AIOps平台能夠建構即時矩陣式的拓樸。能夠按圖索驥,看到圖面當中水平方向,例如服務層的依賴關係圖,還有容器層、主機層、進程級等。垂直向則是服務是跑在什麼容器上,這個容器對應的是哪一個進程,這個進程是落在哪一個雲端主機上面。
4、即時輸出影響面分析
輸出影響面分析則相當於網路安全的思維,在維運當中也是一樣。系統出現了故障或異常,其影響面有哪些,會影響哪些使用者、會影響哪些服務、影響哪些應用,其根本原因為何。透過自動化的手段和技術,把結果輸出給用戶,並不需要維運人員人工分析。
#5、直指根因,見證成果
最後,自動化維運非常重要的能力,就是直指根因,見證成果。傳統的技術需要基於知識庫、基於CMDB、基於因果推論不同的方法,而AIOps則提供內生型根因定位。其能夠打通資料依賴關係,除了物件間的依賴關係,還可以打通不同資料型別間的依賴關係,例如呼叫鏈、日誌、指標間的依賴關係。其提供的是一個即時的根因定位,具有高度的適應性,在低開銷的同時,準確率非常高。而且具備無監督的技術,不需要過多的人工輔助去實現這些能力的交付。
總結
企業若想數位轉型成功,需要做到所有的應用、數位化服務以及支撐其運作的動態多重雲平台都能完美地工作,而且要每時每刻做到這一點。
這些高度動態化、分散式的雲端原生技術,與傳統的場景截然不同。這導致由微服務、容器及軟體定義雲端基礎架構所帶來的複雜性在目前一發不可收拾。這些複雜性超越了團隊管理能力的極限,而且還在不斷擴大中。要隨時了解在這些瞬息萬變的環境中所發生的一切,就必須提升可觀測與智慧維運能力。
我們需要藉助高度的自動化與智慧化技術,讓雲端原生維運變得更輕、效率更快、成本的支出更少,讓企業團隊的精力需要集中在企業業務本身,真正的邁向智慧化維運時代。
來賓介紹
張懷鵬,乘雲產品VP。 2017年加入杭州乘雲數位技術有限公司,負責【DataBuff 一體化觀測與智慧運維】產品線日常管理,擔任IPD整合產品開發團隊經理,參與市場管理、需求分析、團隊協同、流程結構化、質量控制等工作。
以上是如何讓雲端原生運維化繁為簡的詳細內容。更多資訊請關注PHP中文網其他相關文章!

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver Mac版
視覺化網頁開發工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中