検索
ホームページコンピューターのチュートリアルコンピュータ知識Dragon Lizard System Operation and Maintenance Alliance: Kindleing-OriginX が DeepFlow のデータを統合してネットワーク障害の説明を強化する方法

龙蜥系统运维联盟:Kindling-OriginX 如何集成 DeepFlow 的数据增强网络故障的解释力

編集者注: 2023 年、Dragon Lizard コミュニティは、情報通信技術アカデミー、Alibaba Cloud、ZTE、復旦大学、清華大学、浙江大学、雲関秋豪、 Chengyun Digital、Yunshan ネットワーク、Inspur Information、Tongxin Software、China Unicom Software Institute を含む 12 団体が共催しました。この記事は Yun Guan Qiu Hao か​​らの転載であり、DeepFlow の完全なネットワーク データ機能を組み合わせることにより、説明可能な障害根本原因レポートを自動的に生成する System Operation and Maintenance Alliance のメンバーである Kindling-OriginX を紹介します。

DeepFlow は、eBPF テクノロジーを活用して、複雑なクラウド インフラストラクチャとクラウド ネイティブ アプリケーションに高い可観測性を提供するオープン ソース プロジェクトです。 eBPF テクノロジーを通じて、DeepFlow は、完全なリンク カバレッジと豊富な TCP パフォーマンス インジケーターを使用して、詳細なリンク トラッキング データ、ネットワークおよびアプリケーションのパフォーマンス インジケーターを収集します。これらの機能は、専門ユーザーやネットワーク専門家に強力なトラブルシューティングと問題位置のサポートを提供します。

Kindling-OriginX は、障害の根本原因を導出する製品です。目的は、ユーザーが障害の根本原因を直接理解できるようにする、解釈可能な障害の根本原因レポートと、根本原因を検証するための根本原因推論プロセスを提供することです。 。 正確さ。ネットワーク障害を簡単に説明するのは困難です。どのネットワーク セグメントに問題があるかをユーザーに伝えるだけでは十分ではありません。ネットワーク上でどのような障害が発生し、どこで発生したかをユーザーがよりよく理解できるように、より多くのインジケーターや図が必要です。

この記事では、DeepFlow の完全なネットワーク データ機能を組み合わせて、解釈可能な障害根本原因レポートを自動的に生成する Kindling-OriginX を紹介します。

soma-chaos はネットワーク障害をシミュレートします

  • 200ms 遅延ネットワーク シミュレーション障害を座席サービスに挿入します。

  • 次に、まず DeepFlow を使用して 200 ミリ秒のネットワーク障害を特定し、対応するアクションを実行します。

手動による簡略化されたトラブルシューティング プロセス

#ステップ 1: トレース システムを使用して範囲を絞り込む

マイクロサービス環境では、インターフェイスでパフォーマンスの問題が発生した場合、最初のステップは追跡システムを使用して、どのリンクが速度低下の原因となっているかを確認し、特定のパフォーマンスを理解することです。

トレース システムを使用すると、ユーザーは特定のトレースを正確に見つけることができます。トレースを分析した結果、seat-service の実行時間が長く、同時に長時間の config-service 呼び出しが発生していることが判明しました。この場合、リンクされたネットワーク インジケーターは、ネットワークの問題の原因を特定するのに役立ちます。

ステップ 2: DeepFlow フレーム グラフを使用して、障害が発生したネットワーク セグメントを特定します

フレーム グラフの DeepFlow に障害代表のトレース ID を入力し、ネットワーク レベルでのトレースのパフォーマンスを確認し、フレーム グラフを詳細に分析します。フレーム グラフをよく理解し、ネットワークの知識に関する専門的な経験がある場合フレーム グラフは次のことを手動で分析できます。この障害は呼び出し側 (シート サービス) で発生するはずであり、問​​題はシステムコールがネットワーク カードに送信された期間中に発生しました。つまり、コンテナネットワーク期間の問題 (これはフォールトインジェクションと一致します)。

(写真/DeepFlowネットワークフレームグラフ)

ステップ 3: コンテナ ネットワークで異常なネットワーク インジケーターを特定する

トラブルシューティングの経験に基づいて、ユーザーは Seat-Service と Config-Service のポッドのネットワーク インジケーターを確認する必要があります。現時点では、ユーザーは DeepFlow のポッドレベルのネットワーク インジケーター ページにジャンプする必要があります。このページを通じて、ユーザーは接続確立における 200 ミリ秒の遅延の突然変異と RTT インジケーターの突然変異を確認できます。

(図/DeepFlow ポッド レベル監視インジケーター)

(図/DeepFlow ポッド レベル監視インジケーター)

ステップ 4: 考えられる干渉要因を排除する

経験によれば、ホストの CPU と帯域幅がいっぱいの場合、仮想ネットワークでもパケット損失と遅延が発生するため、seat-service と config-service が配置されているノードの CPU とノード レベルを確認する必要があります。ノードレベルのリソースが飽和しないようにするために、その時点で帯域幅が特定されます。

k8s コマンドを使用して 2 つのポッドが配置されているノードを確認し、DeepFlow のノード インジケーター監視ページに移動して対応するインジケーターを確認すると、ノードの bps、pps およびその他のインジケーターが範囲内にあることがわかります。妥当な範囲。

(画像/k8s コマンドを使用してポッドが配置されているノードを検索)

(図/DeepFlowノードレベルの監視指標(クライアント))

(図/DeepFlowノードレベルの監視指標(サーバー))

ノード レベルのネットワーク インジケーターに明らかな異常がなかったため、最終的にはシート サービスのポッド レベルの rtt インジケーターが異常であると判断されました。

手動トラブルシューティングの概要

一連のトラブルシューティング プロセスの後、エンド ユーザーは障害のトラブルシューティングを行うことができますが、ユーザーには次の要件が課せられます。

  • 非常に豊富なネットワーク知識

  • ネットワークフレームグラフの深い理解

  • 関連ツールの使用に習熟している

Kindling-OriginX DeepFlow メトリクスを組み合わせて説明可能な障害レポートを生成する方法

Kindling-OriginX さまざまなユーザーのニーズと使用シナリオに基づいて、Kindling-OriginX は DeepFlow データを処理して表示します。

手動による最も簡素化されたトラブルシューティング プロセスと同様に、Kindling-OriginX を使用したトラブルシューティング プロセスは次のとおりです。

各トレースの自動分析

現時点での障害を考慮して、各トレースが自動的に分析され、リストされたトレースが障害ノードに従ってグループ化されます。 Travel-service はカスケード障害によって発生します。この記事ではカスケード障害には焦点を当てていません。興味がある場合は、マイクロサービスのカスケード障害に対処する方法を参照してください。

Review 故障節點為 seat-service 的故障根報告

故障根因結論:

對於子請求10.244.1.254:50332->10.244.5.79:15679 rtt 指標出現 200ms 左右的延遲。

故障的推理驗證

由於Kindling-OriginX 已經辨識出是seat-service 呼叫config-service 的網路有問題,所以不用完全把DeepFlow 的火焰圖所有資料呈現給用戶,只需要與DeepFlow 對接,只要拿到seat-service 調用config-service 那段網路呼叫的相關資料即可。

利用 DeepFlow 的seat-service 呼叫 config-service 資料自動分析出了客戶端 pod 的容器網路出現了 201ms 的延遲。

Kindling-OriginX 會模擬專家分析經驗,進一步關聯 DeepFlow 的重傳指標與RTT指標,從而確定到底是什麼原因導致了 seat-service 呼叫 config-service 出現了延遲的現象。

Kindling-OriginX 也會整合node的CPU利用率以及頻寬指標,排除乾擾因素。

Kindling-OriginX 將整個故障推理都在一頁報告中完成,並且每個資料來源都是可信可查的。

總結

Kindling-OriginX 與 DeepFlow 都使用了 eBPF 技術,立求在不同的場景中為不同需求的用戶提供靈活高效解決方案,也期待未來能看到國內有更多能力互補產品的出現。

DeepFlow 能提供非常完整的全鏈路網路基礎數據,能夠讓雲端原生應用具有深度可觀測性,對於排查網路問題非常有用。

Kindling-OriginX 是利用 eBPF 來擷取排障北極星指標、AI 演算法和專家經驗來建構故障推理引擎,給予使用者可解釋的根因報告。

—— 完 ——

以上がDragon Lizard System Operation and Maintenance Alliance: Kindleing-OriginX が DeepFlow のデータを統合してネットワーク障害の説明を強化する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は每日运维で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Outlook 365に表示されない添付ファイルを修正する方法は?Outlook 365に表示されない添付ファイルを修正する方法は?Apr 19, 2025 am 12:50 AM

Outlook 365で添付ファイルをダウンロードまたは送信するのに苦労していますか?時々、Outlookは何らかの未知の理由でそれらを表示しないため、それらを見ることができません。 PHP.CN Webサイトのこの投稿では、表示されていない添付ファイルの使用ヒントをいくつか収集します。

V Rising Connectionがタイムアウトする方法は?ここに5つのソリューションがあります! - ミニトールV Rising Connectionがタイムアウトする方法は?ここに5つのソリューションがあります! - ミニトールApr 19, 2025 am 12:49 AM

V Rising Playerが近くにいる、またはすでにいっぱいのサーバーに参加しようとすると、「V Rising Connection Timed」問題に遭遇する可能性があります。あなたがそれらの1つである場合、あなたはソリューションを取得するためにPHP.CNからこの投稿を参照することができます。今、あなたの読書を続けてください。

Windowsセキュリティでリアルタイム保護をオン/オフにする方法は? - ミニトールWindowsセキュリティでリアルタイム保護をオン/オフにする方法は? - ミニトールApr 19, 2025 am 12:48 AM

Windowsは、Windowsセキュリティを介してリアルタイム保護を供給します。しかし、この機能は、危険だと思う何かをすることを妨げる可能性があります。この状況では、一時的にリアルタイム保護をオンにすることをお勧めします。このPHP.CNの投稿では、その方法が表示されます

Windows 11 24H2またはWindows 12?これは重要ですか?Windows 11 24H2またはWindows 12?これは重要ですか?Apr 19, 2025 am 12:47 AM

Microsoftは、来年のWindows Updatesの非常に早い段階で作業を開始しました。最近の噂では、2024年の次のアップデートはWindows 12ではなくWindows 11 24H2である可能性があると述べています。現在、すべてが不確かです。 php.cnは、関連するインフォールを見るためにあなたを連れて行きます

修正:要求された操作を実行できません - エラー0x80030001 -minitool修正:要求された操作を実行できません - エラー0x80030001 -minitoolApr 19, 2025 am 12:46 AM

エラー0x80030001は、多くの場合、ファイルをコピーしようとしているときに発生します。エラーコードには、「要求された操作を実行できない」というメッセージが添付されます。このエラーに苦労している場合は、この記事をphp.cn wで読むことができます

Windows 11 KB5034765のダウンロードとインストール方法Windows 11 KB5034765のダウンロードとインストール方法Apr 19, 2025 am 12:45 AM

2024年2月13日、Microsoftは、Windows 11 22H2およびWindows 11 23H2用にKB5034765(OSが22621.3155および22631.3155を構築する)をリリースしました。このセキュリティアップデートは、多くの新しい改善とバグ修正をもたらします。 Windows1をダウンロードしてインストールする方法を学ぶことができます

デバイスマネージャーから欠落しているパワー管理タブ ​​- トップガイドデバイスマネージャーから欠落しているパワー管理タブ ​​- トップガイドApr 19, 2025 am 12:44 AM

いくつかのコンピューターの問題を修正する必要がある場合、デバイスマネージャーは広く使用されています。問題のあるデバイスを確認し、デバイスドライバーをアンインストールまたは更新することを決定できます。また、デバイスマネージャーに電力管理設定を設定することもできます。ただし、f

Windows 11/10でWindowsバックアップをデフォルトにリセットする2つの方法Windows 11/10でWindowsバックアップをデフォルトにリセットする2つの方法Apr 19, 2025 am 12:43 AM

バックアップと復元(Windowsバックアップ)が機能しない場合、デフォルトにリセットすることを選択できます。 Windows 11/10でWindowsバックアップをデフォルトに復元する方法は? php.cnは、このことを2つの方法で簡単に実行するように導き、それらを見に行きましょう。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境