6 月 5 日、Vipshop は、2023 年 3 月 29 日の障害レポートを発表しました。南沙 IDC 冷凍システムの障害により、Vipshop オンライン モールはサービスを停止し、数億ドルの被害が発生しました。 (小規模な運用保守担当者として、私は震えています)。
Vipshop にとって、オンライン モールは事業の入り口であり、失敗は避けられませんが、これほど長期にわたる失敗は許されないのですが、なぜこのようなことが起こるのでしょうか。私たちのような小規模事業者の目には、このような規模の企業でこのような事故が起こるはずはなく、彼らの PPT を真似し、学びながら、どのように運営し維持するかを模索しています。
しかし、PPT は高度な機能を備えているため、障害の発生を完全に防ぐことができないのはなぜでしょうか。
私は個人的にいくつかの推測をしてみます:
今、国内でさまざまな技術カンファレンスが開催されていますが、有名企業のCTOや技術者を招聘 担当者がスピーチをしました スピーチを見る限り、どの企業も非常に強いです(少なくともPPTではそう示されています) 聞くたびに、私はそう思います「私はこれらの企業を心の底から尊敬しており、素晴らしい思考、素晴らしい能力、そしてクールなチームの素晴らしい力に感心しています。」
しかし、PPT は結局のところ補助ツールにすぎず、現状を置き換えることはできません。
美しいPPTは見たい人だけのもので、美しくないものは一人で我慢しなければなりません。
以前、GOPS で Vipshop の共有を見たことがありますが、PPT プレゼンテーションは本当に素晴らしかったです。これを上司に報告するために使用すると、上司も当社のテクノロジーが本当に強力で、私たちの仕事が本当に素晴らしいと感じるでしょう。それは上司にすべてがうまくいったという錯覚を与えました。
何か問題が起こった場合、あなたがやらなければ誰がしますか?
自分の口から吹き出した凄さは自分の口にも戻ってくる。
書籍『SRE: Decryption of Google Operations and Maintenance』では、障害訓練が大きなスペースを占めています。障害訓練を通じて、システムの信頼性と耐障害性を向上させることができ、チームはシステムのアーキテクチャと動作原理をよりよく理解でき、各モジュールの相互影響をよりよく理解でき、システム アーキテクチャの抜け穴や抜け穴を見つけることができます。より早く発見されます。
障害訓練は、チームが実際の障害を最小限に抑え、起こり得る問題により効率的に対応できるようになるため、全体の安定性保証の中核となるものであると言えます。
しかし、これは実際に真実でしょうか?
実際に障害訓練を実施する場合、障害箇所をあらかじめ定め、具体的な対策を整理して出力し、総合計画を策定し、各人の職務責任と課題を正確に記述する必要があります。
これらの準備作業だけでも多くの人的資源と物的リソースが必要です。多くのチームと多くの人々が手順と対策を合理化します。彼らは障害訓練を「必ず実行する」という心構えで扱い、障害に対処するという心構えで行います。幸運自体、他の人が問題を抱えていないことに希望を置きます。
例えば、パブリッククラウドに期待する場合、パブリッククラウドに問題がなければシステム全体は安定しますが、パブリッククラウド≠は完全に信頼できます。 Google Cloud、Alibaba Cloud、Tencent Cloud など。ただし、料金を支払うのはユーザー自身です。
したがって、運用保守チームまたは SRE チームは障害訓練に真剣に取り組む必要があり、訓練の準備作業を行うだけでなく、訓練中も計画に細心の注意を払い、タイムリーに実行する必要があります。問題が発見された場合には、対処および修正を行います。
訓練を形式的なものにしないでください。訓練を KPI にしないでください。そうしないと、あなたが次の最適化のターゲットになってしまいます。
3 月 29 日の Vipshop の問題は、側面から見ると、「Duohuo」は単なる口論かもしれません。
高可用性に対する要件はますます高くなっているため、ビジネスが発展するにつれて、システム アーキテクチャは進化し続けます。
たとえば、同じコンピューター ルーム内の単一マシン アーキテクチャからアクティブ/スタンバイ アーキテクチャにアップグレードし、次に同じ都市内のマルチ マシン ルーム アーキテクチャにアップグレードし、最終的に 3 センター アーキテクチャに到達します。 2か所でレベルを上げます。
Vipshop が同じ都市に複数のコンピュータ ルームを構築した場合、同じ都市にある最も単純なメイン システムとバックアップ システムであっても 12 時間ダウンすることはありません。
同じ都市に二重に住んでいる場合は言うまでもありません。
しかし、私は神の観点から推測しているだけです。もしかしたら彼らもたくさん仕事をしているのかもしれないが、ただたくさん働いているふりをしているだけだ。
上記の上司たちは、最終的には経済的、人的、物質的なリソースをすべて考え出します。例として、市全体の防災体制を構築する、投資コストはダボほど単純ではない、SRE担当者が資金申請を報告するたびに、上のリーダーが支援しなければ(お金は稼げない)、 、しかし非常に多くの費用がかかります)、すべてが無駄です。
リーダーはコストをコントロールする必要があり、部下は何かをするためにお金が必要です。コストが不足すると経営が成り立たなくなり、PPT は美しくても現実はひどいという状況が発生します。
野心があっても無駄です。
何か問題が起こったら、私はあなたを天国に犠牲にします。
#上記はまったくの架空のものです。類似点がある場合は、気に入ってください~
多くの企業では、運用と保守に強いと言います 低い、ばかばかしいほど低い、そのため、運用や保守が物事を行ったり、物事を進めたりすることが困難になります。
しかし、ひとたび問題が発生すると、真っ先に運用保守が押しのけられるため、常に運用保守が「スケープゴート」の責任を負わされてきました。
それでは、運用保守担当者として何をすべきでしょうか?
最後に、これについて話しましょう。プロダクションを馬鹿にしないでください。
以上が操作もメンテナンスもスムーズな鉄鍋の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。