ホームページ >システムチュートリアル >Linux >MicrosoftのAIOps作業の詳細が明らかに
製品サービスの品質を確保し、サービスのダウンタイムを削減し、より大きな経済的損失を回避するには、主要なサービス イベントの診断が特に重要です。実際の運用保守業務において、運用保守担当者は、サービスイベントを診断する際に、サービスイベントに関連する時系列データを分析することで、イベントの原因を分析することができます。この相関関係は、真の因果関係を完全に正確に反映することはできませんが、それでも診断のためのいくつかの良い手がかりと啓示を提供する可能性があります。
そこで問題は、イベントと時系列データの間の関係をどのように自動的に判断するかということです。###質問###
この記事では、イベント (E) と時系列 (S) のデータ相関の問題を 2 サンプル問題に変換し、最近傍法を使用してそれらが関連しているかどうかを判断します。主に 3 つの質問に答えました: A. EとSの間に相関関係はありますか?B.相関関係がある場合、E と S の時系列は何ですか? E が最初に発生しますか、それとも S が最初に発生しますか? C. E と S の単調な関係。 S (または E) が最初に発生すると仮定すると、S の増加または減少によって E が発生しますか? 図に示すように、イベントはプログラム A と B の実行であり、タイミング データは CPU 使用率です。イベント (プログラム A の実行) とタイミング データ (CPU 使用率) の間には相関関係があり、プログラム A の実行後に CPU 使用率の変化が増加していることがわかります。 ###方法###
この記事のアルゴリズム アーキテクチャは、相関、時系列、単調性の 3 つの問題をそれぞれ解決するために、主に 3 つの部分に分かれています。これら 3 つの部分については、次に詳しく紹介します。######相関###### この記事では、相関関係の判断を 2 サンプルの問題に変換しています。2 サンプルの仮説検定の核心は、2 つのサンプルが同じ分布に由来するかどうかを判断することです。まず、A1 で表される、イベントの前 (または後) に対応する長さ k の時系列サンプル データの N セグメントを選択します。サンプル グループ A2 は、時系列から長さ k の一連のサンプル データをランダムに選択します。サンプルセットはA1からA2までとなります。 E と S に関連がある場合、A1 と A2 の分布は異なります。そうでない場合、分布は同じになります。 A1 と A2 の分布が同じかどうかを判断するにはどうすればよいですか?次の例を見てみましょう:
上の図では、サンプル 0 ~ 4 はサンプル グループ A1 に属し、5 ~ 9 はサンプル グループ A2 に属します。DTW アルゴリズムは、2 つのサンプル間の距離を計算するために使用されます (DTW アルゴリズムは、シーケンス データとディスプレイスメントのスケーリングによく適応します)。サンプルグループ Ai (i=1 または 2) に属するサンプル X の場合、E と S の最も近い r 個のサンプルの関連性が高くなります。たとえば、近傍数が r=2 の場合、サンプル 7 の 2 つの最近傍は 2 つの異なるサンプル グループからの 3 と 5 ですが、サンプル 5 の 2 つの最近傍は同じサンプル グループ A2 からの 7 と 8 です。 この記事では、「仮説検定 H1」の信頼性を判断するために信頼係数 (Confident Coefficient) を使用しています (2 つの分布は同じではありません。つまり、E と S には関連性があります)。 、H1 の信憑性が高くなります。アルゴリズムには 2 つの重要なパラメータがあります: 最近傍数 r と時系列長 k。近傍数はサンプル数の自然対数です。時系列データの自己相関関数曲線の最初のピークは次のとおりです。シーケンスの長さ。
時系列
イベントの前後のシーケンスとランダムに選択された時系列を選択して相関を計算し、その結果が Dr と Df です。
Dr が True で Df が False の場合、S が発生する前に E が発生することを意味します (E -> S)。 Dr が False で Df が True、または Dr が True で Df が True の場合、E が発生する前に S が発生することを意味します (S -> E)。以下の例に示すように、イベント CPU 集中プログラム -> 時系列データ CPU 使用率、時系列データ CPU 使用率 -> イベント SQL クエリ アラート。単調性はイベント発生前後の時系列の変化で判断され、イベント発生後の時系列が前の系列の値より大きい場合は単調性が増加し、そうでない場合は単調性が減少します。 。 下の図に示すように、データ タスクをロードするイベントによってメモリ使用量が増加し、プログラムの終了イベントによってメモリ使用量が減少しました。
###実験結果### この記事では、Microsoft のシステム監視データとカスタマー サービス チームからのデータを使用して、アルゴリズムのパフォーマンスを検証しています。データは、24 S (メモリ、CPU、および DISK データ)、52 E (特定のタスクの実行)、7 S (HTTP) です。ステータスコード)と57 E(サービス対象)の場合、評価基準はFスコアとなります。結果は、DTW 距離が他の距離 (L1 および L2) より全体的に優れたパフォーマンスを示し、アルゴリズム全体が 2 つのベースライン アルゴリズム (ピアソン相関と J-Measure) よりも優れたパフォーマンスを示していることを示しています。###結論は### この記事では、イベントと時系列データの関係を研究するための新しい教師なし手法を紹介し、次の 3 つの質問に答えます: E と S は関連していますか? E と S はどのような順序で発生しましたか?そして、単調な関係とは何でしょうか?イベント間の相関関係や時系列データ間の相関関係に主に焦点を当てている現在の多くの相関研究と比較して、この記事はイベントと時系列データの関係に焦点を当てており、イベントと時間の間の上記の 3 つの質問に初めて答えます。シリーズデータの問題作です。
イベント診断は、運用および保守の分野において常に非常に重要なタスクです。イベントと時系列データ間の相関関係は、イベント診断に優れたインスピレーションを提供するだけでなく、根本原因分析にも優れた手がかりを提供します。著者はマイクロソフトの内部データセットでアルゴリズムを検証し、優れた結果を達成しました。これは学界と産業界の両方にとって価値があります。以上がMicrosoftのAIOps作業の詳細が明らかにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。