ホームページ  >  記事  >  運用・保守  >  操作もメンテナンスもスムーズな鉄鍋

操作もメンテナンスもスムーズな鉄鍋

WBOY
WBOY転載
2023-06-08 21:24:551362ブラウズ

操作もメンテナンスもスムーズな鉄鍋

6 月 5 日、Vipshop は、2023 年 3 月 29 日の障害レポートを発表しました。南沙 IDC 冷凍システムの障害により、Vipshop オンライン モールはサービスを停止し、数億ドルの被害が発生しました。 (小規模な運用保守担当者として、私は震えています)。

Vipshop にとって、オンライン モールは事業の入り口であり、失敗は避けられませんが、これほど長期にわたる失敗は許されないのですが、なぜこのようなことが起こるのでしょうか。私たちのような小規模事業者の目には、このような規模の企業でこのような事故が起こるはずはなく、彼らの PPT を真似し、学びながら、どのように運営し維持するかを模索しています。

しかし、PPT は高度な機能を備えているため、障害の発生を完全に防ぐことができないのはなぜでしょうか。

私は個人的にいくつかの推測をしてみます:

  1. PPT≠ 現実
  2. フォールトドリル = 動作を実行しますか?
  3. 長生きしてください、それについて話してください?
  4. 賢い女性がご飯抜きで食事を作るのは難しい

PPT≠現実

今、国内でさまざまな技術カンファレンスが開催されていますが、有名企業のCTOや技術者を招聘 担当者がスピーチをしました スピーチを見る限り、どの企業も非常に強いです(少なくともPPTではそう示されています) 聞くたびに、私はそう思います「私はこれらの企業を心の底から尊敬しており、素晴らしい思考、素晴らしい能力、そしてクールなチームの素晴らしい力に感心しています。」

しかし、PPT は結局のところ補助ツールにすぎず、現状を置き換えることはできません。

美しいPPTは見たい人だけのもので、美しくないものは一人で我慢しなければなりません。

以前、GOPS で Vipshop の共有を見たことがありますが、PPT プレゼンテーションは本当に素晴らしかったです。これを上司に報告するために使用すると、上司も当社のテクノロジーが本当に強力で、私たちの仕事が本当に素晴らしいと感じるでしょう。それは上司にすべてがうまくいったという錯覚を与えました。

何か問題が起こった場合、あなたがやらなければ誰がしますか?

自分の口から吹き出した凄さは自分の口にも戻ってくる。

フォールトドリル = 動作を確認しますか?

書籍『SRE: Decryption of Google Operations and Maintenance』では、障害訓練が大きなスペースを占めています。障害訓練を通じて、システムの信頼性と耐障害性を向上させることができ、チームはシステムのアーキテクチャと動作原理をよりよく理解でき、各モジュールの相互影響をよりよく理解でき、システム アーキテクチャの抜け穴や抜け穴を見つけることができます。より早く発見されます。

障害訓練は、チームが実際の障害を最小限に抑え、起こり得る問題により効率的に対応できるようになるため、全体の安定性保証の中核となるものであると言えます。

しかし、これは実際に真実でしょうか?

実際に障害訓練を実施する場合、障害箇所をあらかじめ定め、具体的な対策を整理して出力し、総合計画を策定し、各人の職務責任と課題を正確に記述する必要があります。

これらの準備作業だけでも多くの人的資源と物的リソースが必要です。多くのチームと多くの人々が手順と対策を合理化します。彼らは障害訓練を「必ず実行する」という心構えで扱い、障害に対処するという心構えで行います。幸運自体、他の人が問題を抱えていないことに希望を置きます。

例えば、パブリッククラウドに期待する場合、パブリッククラウドに問題がなければシステム全体は安定しますが、パブリッククラウド≠は完全に信頼できます。 Google Cloud、Alibaba Cloud、Tencent Cloud など。ただし、料金を支払うのはユーザー自身です。

したがって、運用保守チームまたは SRE チームは障害訓練に真剣に取り組む必要があり、訓練の準備作業を行うだけでなく、訓練中も計画に細心の注意を払い、タイムリーに実行する必要があります。問題が発見された場合には、対処および修正を行います。

訓練を形式的なものにしないでください。訓練を KPI にしないでください。そうしないと、あなたが次の最適化のターゲットになってしまいます。

ただの話ですか?

3 月 29 日の Vipshop の問題は、側面から見ると、「Duohuo」は単なる口論かもしれません。

高可用性に対する要件はますます高くなっているため、ビジネスが発展するにつれて、システム アーキテクチャは進化し続けます。

たとえば、同じコンピューター ルーム内の単一マシン アーキテクチャからアクティブ/スタンバイ アーキテクチャにアップグレードし、次に同じ都市内のマルチ マシン ルーム アーキテクチャにアップグレードし、最終的に 3 センター アーキテクチャに到達します。 2か所でレベルを上げます。

Vipshop が同じ都市に複数のコンピュータ ルームを構築した場合、同じ都市にある最も単純なメイン システムとバックアップ システムであっても 12 時間ダウンすることはありません。

操作もメンテナンスもスムーズな鉄鍋

同じ都市に二重に住んでいる場合は言うまでもありません。

操作もメンテナンスもスムーズな鉄鍋

しかし、私は神の観点から推測しているだけです。もしかしたら彼らもたくさん仕事をしているのかもしれないが、ただたくさん働いているふりをしているだけだ。

賢い女性にとって、米なしで食事を作るのは難しいです

上記の上司たちは、最終的には経済的、人的、物質的なリソースをすべて考え出します。例として、市全体の防災体制を構築する、投資コストはダボほど単純ではない、SRE担当者が資金申請を報告するたびに、上のリーダーが支援しなければ(お金は稼げない)、 、しかし非常に多くの費用がかかります)、すべてが無駄です。

リーダーはコストをコントロールする必要があり、部下は何かをするためにお金が必要です。コストが不足すると経営が成り立たなくなり、PPT は美しくても現実はひどいという状況が発生します。

野心があっても無駄です。

何か問題が起こったら、私はあなたを天国に犠牲にします。

最後に

#上記はまったくの架空のものです。類似点がある場合は、気に入ってください~

多くの企業では、運用と保守に強いと言います 低い、ばかばかしいほど低い、そのため、運用や保守が物事を行ったり、物事を進めたりすることが困難になります。

しかし、ひとたび問題が発生すると、真っ先に運用保守が押しのけられるため、常に運用保守が「スケープゴート」の責任を負わされてきました。

それでは、運用保守担当者として何をすべきでしょうか?

  1. 外へ出てみましょう - 運用保守チームに限定されず、外に出て、運用保守の価値を事業部門に知らせてください。
  2. 内部に入る - 運用および保守の知識システムは複雑で常に変化します。知識の内部に入り込み、その背後にある原則を深く理解し、専門知識を活用してチームに貢献する必要があります。
  3. 上へ - 運営と保守の影響力を向上させ、専門的な能力と積極的な姿勢を通じてより多くの信頼とサポートを獲得し、現状を変え、ステータスを向上させます。

最後に、これについて話しましょう。プロダクションを馬鹿にしないでください。

以上が操作もメンテナンスもスムーズな鉄鍋の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。