先週の金曜日、Ma Chi と Lai Wei はオンラインで意見交換を行いました。議題は、運用保守職は本当にもう募集できないのかということでした。主催者として、私は発火者であり進行役でもあります:) 2人の退役軍人がそれぞれの意見を共有するのを聞くことで多くの利益を得ました。今日は忘れないように録画しておきましょう 生放送の振り返りです。
ツール プラットフォームは労働力の一部を置き換えます。これは実際には明白であり、これ以上説明する必要はありません。
しかし、ツール プラットフォームを構築するのは誰でしょうか?これはチェックしてみる価値があります。監視システム、CI/CD プラットフォーム、カオス エンジニアリング プラットフォーム、ミドルウェア サービスなどはすべてプラットフォームであり、PE と呼ばれるプラットフォーム エンジニアによって構築されます。 PE は明らかに多くのグループに分かれており、各 PE グループが担当するプラットフォームの数は限られています。この分散した PE チームは、インフラストラクチャ チームなどの大規模なチームに編成することも、複数のチームに分割することもでき、たとえば、エンジニアリング パフォーマンスに関連する PE チームを 1 つの部門 (パフォーマンス エンジニアリング部門など) に配置することもできます。 )、データベース、ビッグデータに関わるPEチームは1つの部門(データ部門など)に配置され、安定性保証に関わるPEチームは1つの部門(運用保守部門など)に配置されます。
この組織の部門は会社によって異なるかもしれませんが、その関係はそれほど重要ではなく、重要なのは PE チームがどのように仕事を遂行するかです。 PE チームの中核は次のことを行う必要があります。
外部サプライヤーについて
キャリア選択の問題をさらに詳しく説明すると、現在は特定のセグメントに優れたサプライヤーがいないかもしれませんが、3 年後はどうでしょうか?今から5年後はどうでしょうか?外国はすでに主導権を握っていますか?中国に有望なサプライヤーはいますか?すでにそれを持っているなら、兄弟、あなたはまだこのニッチな分野に専念し続ける勇気がありますか?事前に何らかの計画を立てるべきでしたか?
もちろん、私たちは将来の見積もりについて楽観的すぎるか悲観的すぎることが多く、時間の見積もりは通常、早すぎるか遅すぎるかのどちらかです。そうです、兄弟、それはあなたの判断次第です。
OnCall障害対応は研究開発部門が対応すべきでしょうか?それとも運用・保守でしょうか?この質問は非常に興味深いです。 Ma Chi 氏は、オンライン障害の 80% は変更に関連していると考えています。変更は R&D によって行われ、R&D のほうが明らかにそれに精通しています。R&D が OnCall 障害に対応できるようにします。つまり、R&D は問題の 80% により速く対応できます。
ビジネス開発とはこのようなものです。データベースの変更、基本的なネットワークの変更、アクセス層の変更はすべて同じです。変更を行う人は、自分のサービスの障害アラームに対応する方が合理的です。
実は、これは次の 2 つの前提に依存します:
実際には、これを 2 つの状況で扱うことができます。変更後のサービスの安定性の監視は、変更を行った人の責任です。毎日の OnCall は別のシナリオであり、別個に扱う必要があります。では、毎日の OnCall は誰が行うべきなのでしょうか?障害位置の特定とストップロスに直接参加できる人でなければなりませんが、その理由は明白で、オンコール担当者がアラームを受信して他の人に連絡する必要がある場合、障害ストップロスの適時性が非常に低くなります。
したがって、まず第一に、アラームはさまざまなカテゴリで処理され、さまざまな担当者がさまざまなアラームを OnCall する必要があります。研究開発や運用保守にすべてを警告するのは無理があり、この絶対的な考え方は無理がある。
最終目標についてはコンセンサスがあり、それはビジネスの研究開発が自由にバージョンをリリースできるようにすることですが、私たちはそれを制御し、安全にリリースしたいとも考えています。そしてリリースしながらビジネスを保護したいと考えています。これにより、CI/CD システムには非常に高い要件が課されます。
気にしなければ、システムの最下層を変更するのは、マシンのバッチ上でスクリプトをバッチ実行するだけです。しかし、上記の要件を追加すると、作業はさらに難しくなり、体系的なプロジェクトになります。
ビジネスの研究開発側では、観察可能なポイントを作成し、システムを監視して問題を時間内に検出し、さらにはアラーム後にリリースプロセスを自動的にブロックする必要があります。 Blue-Green リリースとカナリア リリースには何らかの手段が必要であり、自動コード スキャンとセキュリティ スキャン機能も必要です。ツール システムは不完全です。変更を確実にロールバックできるように、やみくもに R&D を要求するのは不適切です。変更は安全です。 CI/CD の能力のレベルは、基本的に企業の技術力を知ることができます。
あなたの会社が依然として研究開発に運用と保守のための船荷証券を提供しており、運用と保守がオンラインで行われている場合、これが合理的かどうかを検討する必要があります。もちろん、上記のアプローチはよりインターネット指向であり、すべての企業に適しているわけではありませんが、このライブ ブロードキャストはアイデアを提供するだけであり、それについては自分で検討する必要があります。
もちろん、この理想的な状況を達成するにはどうすればよいでしょうか?この理想的な状況に到達するまでに、段階的にどのように取り組んでいくべきでしょうか。生放送では時間の問題は議論されなかった。自社の業務がKubernetesでの運用に適している場合は、Kubernetesを利用したシステムの構築が比較的容易であり、すぐに対応することができます。企業のビジネスを物理マシンまたは仮想マシン環境で実行する必要がある場合は、まず統合された変更リリース プラットフォームを作成し、次にギャップを埋めて徐々に改善します。
ゲストのお二人は多くは語らなかったが、この件については全員が非常に慎重だった。全員に注意してください:
現段階では、プラットフォームシステムはまだそれほど完成していませんが、セルフサービスプラットフォームCOEを利用して運用保守システムを構築するためのBP(ビジネスパートナー)のアーキテクチャは信頼性が高く実装可能と思われます。将来的に、プラットフォームが十分に充実すれば、BP の人員は削減できます (BP は COE を行う能力を徐々に獲得してきました)。プラットフォームが完成し続ければ、COE は引き続き削減できます。その後は、運用とメンテナンスや研究開発は必要ないかもしれません。
以上がこのトピックの終わりに: 運用保守の仕事ができなくなったというのは本当ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。