搜尋
首頁運維安全井源:運維幾何

井源:運維幾何

Jun 09, 2023 pm 04:50 PM
運維

编者著:井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期,开讲!

嘉宾介绍

井源:運維幾何

井源,左一,前百度运维架构师,前小米运维负责人,前美菜CIO

有些运维人员反映公司对运维的价值所知甚少,您当年是怎么给公司讲清楚运维的价值的呢?

首先需要和公司讲清楚运维的岗位职责(运维是干什么、产出什么)和关键指标(度量产出成果),比如工作围绕稳定、安全、高效等方向展开,开展了哪些运维项目,如何主动推进关键指标的达成。

关键指标,不仅仅包含服务可用性,还有比如服务器资源达标率、服务故障数据(故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率)、服务安全指标、服务资源到位时长等等。

比如搭建一套完善的监控系统:

监控服务器资源使用率,找出使用率不达标的服务器进行回收或资源重新分配,通过虚拟化、容器化等手段提升资源使用率梳理告警阈值,规范P0、P1、P2、P3告警级别;监控系统提供告警合并、智能定位建议,提供活跃告警聚合,提供时间纬度的告警分析。方便更快的告警响应和故障定位,提升故障响应时间、故障恢复时间等服务的告警和预案梳理,缩短平均故障恢复时间,提升故障告警覆盖率

业内有观点认为云和Kubernetes这样的基础设施的崛起会让运维岗位逐渐消亡,您是怎么看待这样的观点呢?

很多年前我们运维团队的口号是NO Ops,博客是noops.me。

很早就说过,运维岗位会逐渐消亡,或者部分工作职责会消亡。拿系统运维来举例,以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN工程师、机房运维工程师等小20人的团队。后来通过引入公有云,团队只有4个人,云资源管理员1人、CDN调度工程师1人、网络工程师1人、内核工程师1人,他们只需要管理和调度好第三方公司提供的资源和服务即可。

随着K8s和云的普及,以及研发代码工程化的不断成熟,运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下,为了节省运维人力,提升部署效率,二、三级服务的部署已经交给研发自助完成。

随着科技的发展,时代的变化,一个岗位的消亡是很正常的事情,及时做好调整和规划才是思考的重心。

在企业大范围上云的当下大环境里,您觉得运维人员应该做出哪些调整才能更适合当下的人才需求?

在上云的大环境下,运维工程师更应该面向业务、面向架构,拓展自己的业务范围,成为保障业务稳定的关键人才。如果还是和以前一样,仅仅只关注监控报警,只负责服务部署变更,那么势必会被淘汰。

另一方面,可以往专精的方向走,成为某个领域的专家(监控、大数据、K8s、数据库等等),走运维研发专家的方向。

人生的建议,多寻找一些副业,运维工作只是生活的一小部分。

AIOps热炒了几年,但是最近明显声量变小了,您觉得企业现阶段应该落地AIOps么?应该注意哪些问题?

就拿智能监控为例,看到了很多文案说要通过AI预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中,如果真能通过历史数据,实现故障预测。那还不如去做地震预测,有几千年的地震数据积累,能够产生很大的社会价值。

做AIOps的前提,是真的懂AI,清楚机器学习和神经网络的原理。有多少人工才有多少智能,AIOps才能不是一个口号。

chatGPT这样的AI能力您觉得未来是否有可能解决运维行业的问题?

比如在故障管理中,根据故障的设备、数据、描述,通过知识库、历史故障库等等,给出故障可能的辅助建议(suggestbot)

BTW,如果你已经可以玩转chatGPT了,把这个技术投入到其他更能产生价值的领域吧,别老在运维这个领域耗着……

業務程序的部署,到底該交給研發來做還是應該交給維運來做,在很多公司爭論不休,您是怎麼看待這個問題呢?

之前提到過,我們二、三級的服務是完全由研發去做,一級服務是運維和研發輪流去做,主要目的主要是讓運維清楚當前服務的變化情況而已。維運人員在公司一開始做部署,更多是規範線上環境,規範服務部署方式,進而更好的研發部署系統,掌控所負責的服務架構。

安全性問題、流程問題,完全可以透過部署系統去解決。運維就不要守著這個沒任何價值,沒任何沉澱的工作不放了。

您最想對(維運)產業說的一句話是?為什麼?

「物理學沒有不存在,只是我們認為的物理學,可能不存在。」維運產業可能也不存在了,多少維人的夢想是AIOps、NOOps,要嘛自己去幹掉這個行業,要嘛在這個行業被幹掉。

工具選型這塊,到底是自研,還是使用開源,還是使用商業產品,是如何抉擇的?

有能力有時間就使用開源,能力一般時間有限就使用商業產品。有錢有閒還很自負的話,可以嘗試下自研。

您所在的公司也是多雲架構?您覺得多雲場景下哪些能力應該依托雲廠商哪些能力該自建?

我們是多雲架構。專線或資料傳輸的能力,這個需要自建。基於多雲之上的公共能力也可以自建,例如監控系統、資料備份系統、部署系統、微服務核心組件等,其他的交給雲端廠商就好了。

您印象最深刻的一次故障是什麼?對您有何啟示?

維運這麼多年,遇到的詭異故障太多了,root cause讓你根本想像不到。只能說,故障很難避免,只能設法減少故障的頻率、影響面和影響時間。

所以你的績效不是故障次數和故障級別,而是故障影響面、故障回應、恢復時間等。

面對當下快速發展的基礎技術,您對給剛入行和入行已久的維運人員,分別有什麼職涯規劃的建議嗎?

比較偏激哈~剛入行的,建議盡快轉行!入行已久的,轉行技術相對困難,已經打上了深深的運維烙印。我看過太多維運人員轉行其他技術,多數都是維運研發、維運產品經理的崗位,還是找一下副業吧。

您覺得傳統維運和SRE的差別是什麼?您的團隊做出這樣的轉型,背後的思考是?

這都2023年了,聊這個話題就跟網路運維弄個NOC監控值班一樣,開倒車。

如果現在還在考慮要不要轉型SRE、怎麼轉型SRE、SRE的變化這些問題,就跟5g時代,還在考慮用2g,還是3g……都會被時代所淘汰。

是否有種戛然而止的感覺?哈哈,這是《維運百家講壇》第1期,我們會持續邀請業內大佬前來分享,越是有不同的觀點才越有意思,越是能夠引發思考,咱們一起,抱著開放的心態,聆聽百家之言。下一期,再見!

以上是井源:運維幾何的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能