Dragon Lizard System Operation and Maintenance Alliance: Kindleing-OriginX が DeepFlow のデータを統合してネットワーク障害の説明を強化する方法-コンピュータ知識-php.cn

ホームページ

コンピューターのチュートリアル

コンピュータ知識

Dragon Lizard System Operation and Maintenance Alliance: Kindleing-OriginX が DeepFlow のデータを統合してネットワーク障害の説明を強化する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 22, 2024 pm 02:16 PM

通信網ネット障害deepflowユンウェイ

龙蜥系统运维联盟：Kindling-OriginX 如何集成 DeepFlow 的数据增强网络故障的解释力

編集者注: 2023 年、Dragon Lizard コミュニティは、情報通信技術アカデミー、Alibaba Cloud、ZTE、復旦大学、清華大学、浙江大学、雲関秋豪、 Chengyun Digital、Yunshan ネットワーク、Inspur Information、Tongxin Software、China Unicom Software Institute を含む 12 団体が共催しました。この記事は Yun Guan Qiu Hao からの転載であり、DeepFlow の完全なネットワークデータ機能を組み合わせることにより、説明可能な障害根本原因レポートを自動的に生成する System Operation and Maintenance Alliance のメンバーである Kindling-OriginX を紹介します。

DeepFlow は、eBPF テクノロジーを活用して、複雑なクラウドインフラストラクチャとクラウドネイティブアプリケーションに高い可観測性を提供するオープンソースプロジェクトです。 eBPF テクノロジーを通じて、DeepFlow は、完全なリンクカバレッジと豊富な TCP パフォーマンスインジケーターを使用して、詳細なリンクトラッキングデータ、ネットワークおよびアプリケーションのパフォーマンスインジケーターを収集します。これらの機能は、専門ユーザーやネットワーク専門家に強力なトラブルシューティングと問題位置のサポートを提供します。

Kindling-OriginX は、障害の根本原因を導出する製品です。目的は、ユーザーが障害の根本原因を直接理解できるようにする、解釈可能な障害の根本原因レポートと、根本原因を検証するための根本原因推論プロセスを提供することです。。正確さ。ネットワーク障害を簡単に説明するのは困難です。どのネットワークセグメントに問題があるかをユーザーに伝えるだけでは十分ではありません。ネットワーク上でどのような障害が発生し、どこで発生したかをユーザーがよりよく理解できるように、より多くのインジケーターや図が必要です。

この記事では、DeepFlow の完全なネットワークデータ機能を組み合わせて、解釈可能な障害根本原因レポートを自動的に生成する Kindling-OriginX を紹介します。

soma-chaos はネットワーク障害をシミュレートします

200ms 遅延ネットワークシミュレーション障害を座席サービスに挿入します。
次に、まず DeepFlow を使用して 200 ミリ秒のネットワーク障害を特定し、対応するアクションを実行します。

手動による簡略化されたトラブルシューティングプロセス

#ステップ 1: トレースシステムを使用して範囲を絞り込む

マイクロサービス環境では、インターフェイスでパフォーマンスの問題が発生した場合、最初のステップは追跡システムを使用して、どのリンクが速度低下の原因となっているかを確認し、特定のパフォーマンスを理解することです。

トレースシステムを使用すると、ユーザーは特定のトレースを正確に見つけることができます。トレースを分析した結果、seat-service の実行時間が長く、同時に長時間の config-service 呼び出しが発生していることが判明しました。この場合、リンクされたネットワークインジケーターは、ネットワークの問題の原因を特定するのに役立ちます。

ステップ 2: DeepFlow フレームグラフを使用して、障害が発生したネットワークセグメントを特定します

フレームグラフの DeepFlow に障害代表のトレース ID を入力し、ネットワークレベルでのトレースのパフォーマンスを確認し、フレームグラフを詳細に分析します。フレームグラフをよく理解し、ネットワークの知識に関する専門的な経験がある場合フレームグラフは次のことを手動で分析できます。この障害は呼び出し側 (シートサービス) で発生するはずであり、問題はシステムコールがネットワークカードに送信された期間中に発生しました。つまり、コンテナネットワーク期間の問題 (これはフォールトインジェクションと一致します)。

(写真/DeepFlowネットワークフレームグラフ)

ステップ 3: コンテナネットワークで異常なネットワークインジケーターを特定する

トラブルシューティングの経験に基づいて、ユーザーは Seat-Service と Config-Service のポッドのネットワークインジケーターを確認する必要があります。現時点では、ユーザーは DeepFlow のポッドレベルのネットワークインジケーターページにジャンプする必要があります。このページを通じて、ユーザーは接続確立における 200 ミリ秒の遅延の突然変異と RTT インジケーターの突然変異を確認できます。

(図/DeepFlow ポッドレベル監視インジケーター)

ステップ 4: 考えられる干渉要因を排除する

経験によれば、ホストの CPU と帯域幅がいっぱいの場合、仮想ネットワークでもパケット損失と遅延が発生するため、seat-service と config-service が配置されているノードの CPU とノードレベルを確認する必要があります。ノードレベルのリソースが飽和しないようにするために、その時点で帯域幅が特定されます。

k8s コマンドを使用して 2 つのポッドが配置されているノードを確認し、DeepFlow のノードインジケーター監視ページに移動して対応するインジケーターを確認すると、ノードの bps、pps およびその他のインジケーターが範囲内にあることがわかります。妥当な範囲。

(画像/k8s コマンドを使用してポッドが配置されているノードを検索)

(図/DeepFlowノードレベルの監視指標(クライアント))

(図/DeepFlowノードレベルの監視指標(サーバー))

ノードレベルのネットワークインジケーターに明らかな異常がなかったため、最終的にはシートサービスのポッドレベルの rtt インジケーターが異常であると判断されました。

手動トラブルシューティングの概要

一連のトラブルシューティングプロセスの後、エンドユーザーは障害のトラブルシューティングを行うことができますが、ユーザーには次の要件が課せられます。

非常に豊富なネットワーク知識
ネットワークフレームグラフの深い理解
関連ツールの使用に習熟している

Kindling-OriginX DeepFlow メトリクスを組み合わせて説明可能な障害レポートを生成する方法

Kindling-OriginX さまざまなユーザーのニーズと使用シナリオに基づいて、Kindling-OriginX は DeepFlow データを処理して表示します。

手動による最も簡素化されたトラブルシューティングプロセスと同様に、Kindling-OriginX を使用したトラブルシューティングプロセスは次のとおりです。

各トレースの自動分析

現時点での障害を考慮して、各トレースが自動的に分析され、リストされたトレースが障害ノードに従ってグループ化されます。 Travel-service はカスケード障害によって発生します。この記事ではカスケード障害には焦点を当てていません。興味がある場合は、マイクロサービスのカスケード障害に対処する方法を参照してください。

Review 故障節點為 seat-service 的故障根報告

故障根因結論：

對於子請求10.244.1.254:50332->10.244.5.79:15679 rtt 指標出現 200ms 左右的延遲。

故障的推理驗證

由於Kindling-OriginX 已經辨識出是seat-service 呼叫config-service 的網路有問題，所以不用完全把DeepFlow 的火焰圖所有資料呈現給用戶，只需要與DeepFlow 對接，只要拿到seat-service 調用config-service 那段網路呼叫的相關資料即可。

利用 DeepFlow 的seat-service 呼叫 config-service 資料自動分析出了客戶端 pod 的容器網路出現了 201ms 的延遲。

Kindling-OriginX 會模擬專家分析經驗，進一步關聯 DeepFlow 的重傳指標與RTT指標，從而確定到底是什麼原因導致了 seat-service 呼叫 config-service 出現了延遲的現象。

Kindling-OriginX 也會整合node的CPU利用率以及頻寬指標，排除乾擾因素。

Kindling-OriginX 將整個故障推理都在一頁報告中完成，並且每個資料來源都是可信可查的。

總結

Kindling-OriginX 與 DeepFlow 都使用了 eBPF 技術，立求在不同的場景中為不同需求的用戶提供靈活高效解決方案，也期待未來能看到國內有更多能力互補產品的出現。

DeepFlow 能提供非常完整的全鏈路網路基礎數據，能夠讓雲端原生應用具有深度可觀測性，對於排查網路問題非常有用。

Kindling-OriginX 是利用 eBPF 來擷取排障北極星指標、AI 演算法和專家經驗來建構故障推理引擎，給予使用者可解釋的根因報告。

—— 完 ——

以上がDragon Lizard System Operation and Maintenance Alliance: Kindleing-OriginX が DeepFlow のデータを統合してネットワーク障害の説明を強化する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は每日运维で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Windows11教育ISOをダウンロードしてPCにインストールする-MinitoolApr 26, 2025 am 12:50 AM

Windows 11教育とは何ですか？このシステムをPCにインストールしたい場合、この作業を行うにはどうすればよいですか？ PHP.CNからのこの投稿では、Windows 11 EducationのダウンロードISOとISOファイルからインストールする方法に関する詳細なガイドを示します。

受信トレイに表示されないOutlookメールを修正する方法-MinitoolApr 26, 2025 am 12:49 AM

Outlookのメールは受信トレイに表示されていませんが、検索に表示されていますか？ Outlookがすべてのメールを表示しない場合、どのような手順ができますか？ PHP.CNソリューションによって提供されたこの投稿では、問題に対処するのに役立ついくつかの有用な方法を紹介します。

必見の修正：画面をシャットダウンする際にWindowsが詰まっていますApr 26, 2025 am 12:48 AM

コンピューターの電源を切らそうとしているが、画面の問題をシャットダウンする際にWindowsに遭遇した場合は、このPHP.CNガイドからいくつかの役立つ修正を見つけることができます。詳細を確認するために読み続けてください。

[完全なガイド] MicrosoftチームのエラーCAA50021を修正する方法は？ - ミニトールApr 26, 2025 am 12:47 AM

Microsoft TeamsエラーコードCAA50021の効果的なソリューションを探している場合、この投稿は読む価値があります。この投稿では、PHP.CNでは、このエラーを詳細に取り除く方法を紹介します。問題を解決するためにそれに従ってください。

Windows11/10をWindowsBlinds 11 -Minitoolを使用してWindows XPのように見せますApr 26, 2025 am 12:46 AM

Windows 11またはWindows 10をWindows XPのように見せたいですか？デバイスでこれを行う方法を知っていますか？今すぐWindowblinds 11ベータ版を試すことができます。この投稿では、PHP.CNソフトウェアがWindowBlinds 11をダウンロードして紹介する方法を説明します

プロの修正：すべての更新が正常にアンインストールされたわけではありませんApr 26, 2025 am 12:45 AM

エラーが発生したためにWindowsの更新をアンインストールするためにユニバーサルの方法を使用できない場合、すべての更新が正常にアンインストールされたわけではありません。PHP.CN投稿で言及されたメソッドを試して問題を解決できます。

システムエラーを修正-WACOM_TABLET.EXE CAN＆＃039; T END PROCESS -MINITOOLApr 26, 2025 am 12:44 AM

wacom_tablet.exeとは何ですか？ Windowsプロセスは安全に実行できますか？一部の人々は、wacom_tablet.exeがプロセスを終了できないことを発見し、このWindowsシステムエラーが発生したとき、あなたは圧倒され、どこから始めればよいかわからないかもしれません。 php.cnでは、この記事でyを解決します

chatgptで疑わしい動作を検出した3つの方法-minitoolApr 26, 2025 am 12:43 AM

ChatGptエラーはさまざまであり、疑わしい動作が一般的な動作であることが検出されました。あなたがこの問題に閉じ込められているなら、あなたは何をすべきですか？ PHP.CNからこの投稿を読んでください。トラブルを取り除くのに役立つ便利な修正をいくつか見つけることができます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。