システムは壊れています。コードは認識するだけで、人は認識しません。-コンピュータ知識-php.cn

ホームページ

コンピューターのチュートリアル

コンピュータ知識

システムは壊れています。コードは認識するだけで、人は認識しません。

王林

Feb 19, 2024 am 10:51 AM

mq移行ネット障害認識するだけ

システムは壊れています。コードは認識するだけで、人は認識しません。

親愛なる皆さん、私のアドバイスを聞いて、内部システムコール、外部システムコール、またはパッシブトリガーコール (たとえば、 MQ の消費、コールバックの実行など）、必要な条件チェックを必ず追加してください。この状態は間違いなく送信される、間違いなく値がある、間違いなく空ではないなどと言う一部の同僚を信じないでください。いや、旧正月直前に騙されて生産事故を起こしてしまい、年末ボーナスが実質半額になってしまいました。

システムの高い可用性と安定性を確保するために、人ではなくコード自体に焦点を当てることにしました。ここでは、あなたにも役立つかもしれないいくつかの小さなレッスンを紹介します。

1.何が起こったのか

私のビジネスシナリオは次のとおりです。ビジネス A が変更されると、MQ メッセージの送信がトリガーされ、アプリケーションは MQ メッセージを受信し、処理後にデータを Elasticsearch に書き込みます。

(1) A社から異常アラームを受信しました。その時のアラームは以下の通りです。

(2) 一見すると少し奇妙に思えますが、どうしてこれが Redis の例外になるのでしょうか?その後、Redis に接続しましたが、問題はありませんでした。Redis クラスターを再度確認したところ、すべてが正常でした。それで、偶発的なネットワークの問題だと思って放置しました。

その後、技術的な問題グループで、一部のユーザーに異常な状況が発生しているとカスタマーサービスから報告があり、すぐにシステムをチェックして散発的な問題の存在を確認しました。

(4) そこで、習慣に従っていくつかのコアコンポーネントを調べてみました。

ゲートウェイのステータス、コアビジネス Pod の負荷ステータス、およびユーザーセンター Pod の負荷ステータス。

Mysql の状況: メモリ、CPU、遅い SQL、デッドロック、接続数など。

リーリー

(6) いくつかの遅いセッションをすぐに強制終了した後、システムがまだ完全に復元されていないことがわかりました。なぜですか?データベースは正常になっているのに、なぜ完全に復元されていないのでしょうか?引き続きアプリケーション監視を見てみると、ユーザーセンターにある10台のPodのうち2台が異常で、CPUとメモリが枯渇していることが分かりました。使用中に時々異常が発生するのも不思議ではありません。そこで、すぐにポッドを再起動し、最初にアプリケーションを復元しました。

(7) 問題が見つかったので、ユーザーセンターのポッドがハングアップした原因を引き続き調査します。次の疑問点から分析を開始してください:

Elasticsearch にデータを同期するコードに何か問題がありますか? Redis に接続できないのはなぜですか?

例外が多すぎるため、例外アラームメッセージを送信するためのスレッドプールキューがいっぱいになり、OOM が発生する可能性がありますか?
ビジネス A の大きなテーブルに対して無条件の完全なテーブルクエリをどこで実行できますか?

(9) この時点で、C の疑いがあることはほぼ確実ですが、業務 A の大きなテーブルに対するフルテーブルクエリが呼び出され、ユーザーセンターのメモリが過大になり、JVM がリサイクルする時間がなく、CPU を直接爆発させます。同時に、テーブル全体のデータが大きすぎるため、クエリ中のメタデータのロック時間が長すぎ、接続の解放が間に合わず、最終的にはほぼ枯渇してしまいます。

(10) そこで、ビジネス A の大きなテーブルをクエリするために必要な検証条件を変更し、オンライン観察用に再展開しました。最終的な位置決めに問題があった。

2. 問題の原因

業務テーブルBを変更する場合、MQメッセージの送信(業務テーブルAのデータをESに同期)する必要があるため、MQメッセージを受信後、業務テーブルAに関するデータを問い合わせて同期を行う必要があります。データを Elasticsearch に送信します。

しかし、業務テーブルBを変更する際、業務テーブルAに必要な必要条件が無く、必要条件の検証も怠ったため、業務Aの大きなテーブルをフルテーブルスキャンすることになりました。なぜなら：＃＃＃リーリー

当時ビジネス B のテーブルが頻繁に変更されていたため、より多くの MQ メッセージが送信および消費され、ビジネス A の大きなテーブルのフルテーブルスキャンがさらにトリガーされ、その結果、Mysql メタデータのロック時間が長くなりました。長すぎるため、最後の接続でデータが過剰に消費されます。

同時に、業務 A の大規模なテーブルクエリの結果は毎回ユーザーセンターのメモリに返されるため、JVM ガベージコレクションがトリガーされますが、リサイクルすることはできません。疲れ果てています。

Redis が接続を取得できない例外については、単なる煙爆弾であり、送信および消費される MQ イベントが多すぎるため、少数のスレッドがすぐに Redis 接続を取得できません。

最後に、MQ イベントを消費するコードに条件検証を追加し、クエリビジネス A テーブルにも必要な条件検証を追加してオンラインに再デプロイし、問題を解決しました。

3. レッスンを要約する

この事件の後、私もいくつかの教訓をまとめて皆さんと共有しました:

(1) オンラインの問題には常に注意を払い、問題が発生したら放置せず、すぐに調査してください。ほとんどの問題はネットワークとは何の関係もありません。

(2) 大規模なビジネステーブル自体を保護する必要があり、クエリに必要な条件検証を追加する必要があります。

(3) MQ メッセージを使用するときは、必要な条件を確認する必要があり、情報ソースを信頼しないでください。

(4) 「この状態は必ず伝わる、必ず価値がある、絶対に空ではない」などと言う同僚の言葉を決して信じないでください。システムの高可用性と安定性を確保するために、人ではなくコードのみを認識します。

(5) 問題が発生した場合の一般的なトラブルシューティング手順:

CPU、デッドロック、データベースの SQL が遅い。

(6) ビジネスの可観測性とアラームは不可欠であり、問題をより迅速に発見して解決できるように包括的である必要があります。

以上がシステムは壊れています。コードは認識するだけで、人は認識しません。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は每日运维で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ガイド：XtremeLiteos7あなたのPCへのダウンロードとインストールApr 13, 2025 am 12:31 AM

Xtreme Liteos 7とは何ですか？このLiteシステムに興味がある場合は、Windows 7 Xtreme Liteos ISOをダウンロードして、PCにインストールするために使用する方法は？操作は難しくなく、このWindows 7 Lite OSを取得するためにPhp.cnからガイドを見つけます。

Microsoft Edge WebView2の修正ランタイムはWin 11/10で開始できませんでしたApr 13, 2025 am 12:30 AM

Windowsユーザーは、「Microsoft Edge WebView2 Runtime Installerが起動に失敗した」エラーに遭遇する場合があります。 PHP.CNからのこの投稿では、問題を修正する方法を紹介します。

ガイド-Windows11用のスレッドダウンロードと2つの方法でインストールApr 13, 2025 am 12:29 AM

Instagramスレッドとは何ですか？スレッドはWindowsで利用できますか？ Windowsにスレッドをインストールする方法は？これらの質問に対する答えを見つけるには、読み続けてください。この投稿では、PHP.CNは2を含むこのオンラインソーシャルメディアサービスに関する多くの詳細を紹介しています

修理ガイド：Outlookデータファイルが最大サイズに達しましたApr 13, 2025 am 12:28 AM

「Outlookデータファイルが最大サイズに達した」という問題に遭遇したことがありますか？ Outlookデータファイルがいっぱいになったらどうすればよいですか？次に、この投稿をPHP.CNで読んで、それを修正するためのいくつかの実行可能な方法を見つけてください。

正確な手順でパーティションスタイルを確認する方法を学びますApr 13, 2025 am 12:27 AM

ディスクのパーティションスタイルが何であるか知っていますか？それはMBRですか、それともGPTですか？ PHP.CNからのこの投稿に、Windows 11/10でパーティションスタイルを確認する方法が示されています。

Microsoft 365でドキュメントを削除する方法は？ガイドに従ってください！Apr 13, 2025 am 12:25 AM

多くの場合、Microsoft 365でドキュメントとファイルを削除する必要があります。 PHP.CNからのこの投稿では、Microsoft 365でドキュメントを削除する方法を紹介します。今すぐ読んでください。

Windows11で事前にインストールされたアプリを削除する方法を見つけるApr 13, 2025 am 12:24 AM

Windows 11コンピューターに事前にインストールされたアプリの一部を使用したくないですか？それらをアンインストールすることを選択できます。この投稿では、PHP.CNソフトウェアでは、Windows 11に事前にインストールされたアプリをアンインストールする方法に関する簡単で効果的なガイドを紹介します。

OneDriveに接続するのに問題がありましたか？簡単に処理できますApr 13, 2025 am 12:23 AM

ほとんどの人は、OneDriveを使用して、重要なファイルを保存してバックアップします。ただし、サインインしようとすると、「OneDriveに接続する問題があった」というエラーメッセージが表示される場合があります。通常、インターネットにアクセスしている場合は、問題を解決する方法はありますか？ティ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

WebStorm Mac版

便利なJavaScript開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。