ホームページ > 記事 > テクノロジー周辺機器 > NetEase は異常なデータ インジケーターをどのように検出して診断しますか?
指標はビジネスと密接に関係しており、その価値は問題を発見し、問題を明らかにすることにあります。タイムリーに解決でき、プロモーションのハイライトが得られます。電子商取引ビジネスのさらなる発展に伴い、ビジネスの反復は速く、ロジックは複雑になり、指標の数は増加し、指標間の差異は非常に大きく、非常に急速に変化します。システムを調べて問題を見つけますか? 根本原因はビジネスにとって重要です。警報閾値を手動で設定すると漏れが発生しやすく、非常に時間とコストがかかります。私たちは、次の目標を達成できる一連の自動化メソッドを構築したいと考えています。
# 次に、インジケーター異常検出とインジケーター異常診断をそれぞれ紹介します。
データ サイエンス作業の最初のステップは、問題を分析して定義します。当社の異常の定義はデータ指標の異常であり、指標が高すぎたり低すぎたり、上下したりする場合は異常であり、早期の警告と診断が必要です。インジケータ異常は次の 3 種類に分類されます。
は、指標の固有の分布に従っていない統計的な外れ値を指し、ビジネスの現在のステータスを反映しています。
目標値に比べて大きすぎる急激な増加または減少ポイント前期に比べ、足元の事業の急激な変化を反映したものとなっております。
最初の 2 種類の異常は、単一点と短いものです。暴力的ですが、一部の異常は比較的隠されています。それらは中長期的に決定的な上昇または下降傾向を示し、多くの場合、特定の潜在的なリスクを示します。したがって、傾向の異常を検出し、ビジネス上の警告と早期介入を実行する必要もあります。 。
これら 3 種類の例外は互いに独立しており、異なるシナリオが異なる種類の例外に対応する可能性があります。
たとえば、上図の点 A には絶対値の異常とボラティリティの異常の両方がありますが、点 B は前日から大きく変化していないため、絶対値の異常のみを報告します。 C 点と D 点はどちらも変動異常のみを報告しましたが、理由は異なります。C 点の指標の突然の低下は、正常な指標の低下である B 点によって引き起こされました。これは後処理ロジックで解決する必要があります。 。
2. インジケータ異常検出フレームワークインジケータ検出の汎用性、自動化、適時性を実現するために、統計的テストに基づく教師なし検出フレームワーク。
データセットには最大でも r 個の外れ値があると仮定します。最初のステップは、平均からの距離が最も大きいサンプル i を見つけて、統計量 R
i を計算することです。これは、xi の絶対値から平均を引いて除算したものです。標準偏差による。次に、対応するサンプル点 i の臨界値 λi を計算します。ここで、n はサンプルの合計サイズ、i は除去されたサンプルの数、t は n-i-1 の自由度を持ちます。 t 分布の p パーセンテージ ポイント。p は、設定された信頼度 α (通常、α の値は 0.05) と現在のサンプル サイズに関連します。
2 番目のステップでは、平均からの距離が最も大きいサンプル i を削除し、上記のステップを合計 r 回繰り返します。3 番目のステップは、統計値 Ri が λi より大きいサンプル (異常点) を見つけることです。 この方法の利点は、まず、外れ値の数を指定する必要がなく、例外の上限を設定するだけで済みます。このアルゴリズムは外れ値を自動的に捕捉します。第 2 に、3Sigma の検出率が低すぎて (1% 未満)、非常に極端な異常しか検出できないという問題を解決します。 GESD アルゴリズムでは、検出率の上限を制御することで適応を行うことができますが、この手法の前提として、入力指標が正規分布している必要があります。現在観測されている e コマース ビジネス指標のほとんどは正規分布しています。もちろん、非正規分布である個々のビジネス指標 ( 2 番目のタイプは変動異常検出です。これは主にボラティリティ分布に基づいて、電圧の変曲点を計算します。分布。上記の方法は、ここでのボラティリティ分布に直接適用することはできません。主な理由は、インジケーターのボラティリティのほとんどが正規分布ではないため、適用できません。変曲点を見つける原理は、二次導関数と距離に基づいて曲線上の最大屈曲点を見つけることです。増加するボラティリティは 0 より大きく、減少するボラティリティは 0 未満です。y 軸の両側の 0 より大きい部分と 0 未満の部分については、それぞれボラティリティの 2 つの変曲点が見つかるはずです。変曲点の範囲内であれば異常変動と考えられます。ただし、場合によっては変曲点が存在しなかったり、変曲点が早すぎて検出率が高くなりすぎる場合があるため、分位点など他の方法も併用して検出する必要があります。検査方法は 1 つだけでは万能ではないため、組み合わせて使用する必要があります。 3 番目のタイプは、Man-Kendall テストに基づく傾向異常検出です。まず統計量 S を計算します (sgn は符号関数) インジケーター シーケンスの前後の値の相対的な大小関係に従って、-1、1、0 などの 3 つのマッピング値を取得できますそれらをペアでペアにすることによって。統計量 S を標準化すると Z が得られます。これは、テーブルを検索することで p 値に変換できます。統計的には、p 値が 0.05 未満の場合に、有意な傾向があると見なされます。 最初の利点は、すべての分布に適用できるノンパラメトリック テストであるため、ボトムアップ手法が必要ないことです。 2番目の利点は、インジケーターシーケンスが連続的である必要がないことです。トレンドの異常を検出する場合、異常な絶対値を持つサンプルを事前に除去する必要があるため、ほとんどのインジケーターシーケンスは連続的ではありませんが、この方法は不連続なインジケーターをサポートできます。 。 3 つの例外が完了した後、後処理作業が必要になります。主な目的は、不要な処理を削減することです。アラームを鳴らし、業務の中断を減らします。 最初のタイプはデータ異常です。データ ソースはデータ ウェアハウス レベルにあり、データ ウェアハウス チームによって保証されているため、このデータ異常はデータ ソースが間違っていることを意味するものではありません。 。ここでのデータの異常とは、前のサイクルの異常によって現在のサイクルが異常に変動することを指します。たとえば、昨日は 100% 上昇し、今日は 50% 下落した指標があります。この場合、次の基準に基づいて除去する必要があります。除外条件は、 (1) 前のサイクルで変動または絶対値の異常があった (2) 今回のサイクルの変動が正常に戻りつつある、つまり、変動はあるが同じ方向の絶対値の異常がない変動として。たとえば、昨日は 100% 上昇し、今日は 50% 低下した場合は後処理モジュールによって除外されますが、99% 低下した場合は絶対値異常がトリガーされ、警告が表示されます。必要とされている。これにより、合計40%以上の変動異常を解消しました。 2 番目の後処理は、S レベルのプロモーションの情報連携に基づいています。この種のプロモーションでは、異常な指標が 1 時間ごとに発生する可能性があります。理由は誰もが知っています。ありませんので報告が必要です。 実行可能領域と確実性による。結論として、推論は決定的推論、可能的推論、推論的推論の 3 つのレベルに分けることができます。 異なる推論レベルは、異なる診断方法に対応します。 #推論、結論は主に人間の経験に依存し、結論は比較的不明確で、操作可能な空間は限られており、範囲内ではありませんこの記事でのメソッドの説明の範囲。 可能性推論 (1) は、機械学習に基づいて指標データを適合させ、回帰予測を行い、特徴の重要性を計算できます。この方法の欠点は、単一の異常の原因を説明できないことです。 。 (2) 単一の異常を説明したい場合は、各予測値と各入力特徴のターゲットへの寄与値を計算できる形状値アルゴリズムを追加する必要があります。この方法には一定の解釈可能性がありますが、正確性が十分ではなく、相関関係のみを導き出すことができ、因果関係は導き出すことができません。 (3) ベイジアン ネットワークは、指標間の関係のグラフやネットワークを構築するために使用できますが、計算が比較的複雑でブラック ボックスになるという欠点があります。 決定的推論は主に逆アセンブリ寄与アルゴリズムに基づいています。分解寄与アルゴリズムは加算、乗算、除算のいずれであっても、分解方法に応じて各部分の指標や構造の変更が全体に及ぼす影響を測定します。利点は、比較的決定的で、ホワイトボックス化され、適応性が高く、異常の位置を正確に特定できることです。ただし、当然の欠点もあります。つまり、同じインジケーターに対して分解できるディメンションが多数あり、結合されたディメンションが爆発的に増加するという問題が発生します。 データ サイエンスにおける多くの問題では、実際のビジネス シナリオに基づいて対応する手法を選択する必要があります。そこで、当社の取り組みをご紹介する前に、事業の現状をご紹介させていただきます。 プラットフォーム e コマースの成長は、トラフィック維持と有料コンバージョンによって促進されることを私たちは知っています。人口ボーナスがピークに達し、トラフィックを獲得することがますます困難になる中、NetEase Yanxuan は戦略的アップグレードを実行し、プラットフォーム電子商取引からブランド電子商取引に移行し、JD.com やタオバオなどのプラットフォーム電子商取引企業をブランドに転換しました。パートナー。 ブランド電子商取引の成長主導の手法は、オムニチャネルコラボレーションを通じて爆発的な製品で突破口を開き、スターカテゴリーを作成してブランドを確立することです。たとえば、必ずしも当社のアプリを通じて NetEase Yanxuan を知っているわけではありませんが、淘宝網や JD.com で製品を購入することで当社のブランドについて知ることができるかもしれません。 NetEase Yanxuan の成長の視点は、ユーザーの獲得、維持、支払いに重点を置くことから、注目の製品の作成とチャネルの画期的な成長に重点を置くようになりました。 ブランド電子商取引の指標のグレーディングは、戦略層、戦術層、実行層に分けることができます。戦略レイヤーは、第 1 レベルの指標である北極星指標に対応します。たとえば、市場の GMV は目標の達成を測定し、企業の戦略的決定に役立ちます。戦術層は、第 1 段階の指標を部門や事業内容ごとに各レベルに分割した第 2 段階の指標に相当し、プロセス管理を行います。実行層は第 3 段階の指標に相当し、第 2 段階の指標をさらに製品と担当者ごとに各レベルに分割し、サービスを詳細に実装します。 ブランド e コマースの現在のインデックス グレーディング方法と、部門、人、製品を見つける必要性に基づいて、当社のアルゴリズムは決定的で解釈可能で、ホワイト ボックス化されている必要があります。そこで、各層の指標が全体に与える影響を計算する分解ベースの手法、すなわち前述の分解寄与法を採用しました。 寄与度の計算方法には、加算、乗算、除算の 3 つの方法があります。 #分解方法は上の写真の通りです。 Y は、市場の GMV など、分解されるターゲット指標です。Xi は、特定の州や都市の GMV、X# など、特定の分割ディメンションの下での i 番目のディメンションの値です。 ##i1 は現在の期間の指標を表し、Xi0 は前の期間の元の値を表します。 iを全体の元の値Y0#で割ります。 ## はその貢献度です。 乗算分解には、LMDI (Logarithmic Mean Index Method) 積因数分解法を採用しています。両辺の対数 ln を同時に取ることで加算形式が得られ、上記の方法により各因子の寄与度を求めることができます。寸法値の前後の比率が大きいほど、寄与度も大きくなります。 分割方法は 2 要素分解法を採用しています。つまり、全体に対する各部分と各寸法値の寄与が 2 つの要素で構成されます。第 1 因子は変動寄与度 AXi で表され、第 2 因子は構造変化寄与度 BXi、つまり各部品の構造変化寄与度です。たとえば、各部門の粗利益率は増加しましたが、会社全体の粗利益率は減少しました。原因としては、利益率の低い特定部門の売上比率が上昇し、全体の足を引っ張っていることが考えられますが、これはシンプソンのパラドックスでおなじみの状況です。除算逆アセンブリアルゴリズムでは、BXi の構造変化の寄与を導入することでこの問題を解決できます。 コントリビューションの非常に重要な特徴は加算性であり、繰り返しや省略がないという MECE 原則を満たします。どのような分解方法を使用しても、全体の変化率 ΔY% は、ある分解次元の下ですべての寸法値寄与率 CXi を合計することで得られます。 第一レベルのインジケーターの異常原因を分解するとします。 、売上高や粗利など、分割の次元は販売チャネルや州、都市、地域にすることもできますし、製品カテゴリ、新規顧客と既存顧客などに基づくこともできます。 n 個の分割次元があると仮定すると、n 個の次元に対応する中間テーブルを生成し、各次元の各次元値 Xi の指標の変化を計算して、その寄与を取得する必要があります。 インジケーターの異常の原因を正確に突き止めるには、単一の次元しか分解できず、その次元の結論しか得られないという問題があり、正確な問題はが見つかりません。細分化されたディメンションが詳細すぎる場合、たとえばすべてのディメンションを結合した場合、各項目の寄与が小さすぎるため、主な理由を取得できません。したがって、ここでは徹底的にドリルダウンして、さまざまな次元の組み合わせで必要な結論を探す必要があります。 現在 n 個の分割ディメンションがあると仮定すると、最初に 2n の中間テーブルを作成する必要があります。中間テーブルを確立するプロセス中に、口径がデータ ウェアハウスの仕様を満たすには、ワークロードが非常に大きくなります。これらの中間テーブルを構築した後、対応する寄与度を計算するために逆アセンブリアルゴリズムの API を呼び出すため、非常に大きな計算量とストレージ消費が発生し、次元爆発の問題が発生します。 次元爆発の問題を解決するには、実装プランは次のように最適化されました。 最適化 1: ディメンションの分解プロセスを寄与ベースの集計に変換します。前述したように、寄与度は加算的であるため、最初にアルゴリズムが呼び出されて、最も詳細な最終指標の寄与度を計算します。次に、どの次元の寄与度が必要であるかを判断し、それを使用して条件ごとにグループ化して寄与度を合計します。 。これにより、中間テーブルの IO プロセスが省略でき、アルゴリズム呼び出しが 1 回だけ必要となり、クラスター上で合計操作を実行する方が、インジケーター逆アセンブリ アルゴリズムを呼び出すよりもはるかに高速になります。 上記は、第 1 レベルの指標の異常診断です。実際のビジネスでは、第 2 レベルの指標も診断する必要があります。この方法では、寄与度を 1 回正規化するだけで済みます。以上で、繰り返し計算する必要がなく、一次指標と二次指標の異常診断を同時に行うことができます。 #計算効率の問題は解決されましたが、まだ問題が残っています。つまり、結果の空間複雑さが非常に大きく、## に達します。 #。 k を各次元の次元値の平均数とすると、 1 次元解体空間 # 2 次元解体空間 # 3 次元解体空間 n次元解体空間=。
最適化 2: 実際のビジネス ニーズに応じてプルーニングを実装するディメンションの組み合わせを制限し、結果の空間の複雑さを から 写真内 。具体的には、2 つの操作が含まれます。1 つ目は、ディメンションをグループ化することです。第 1 レベルのチャネルと第 2 レベルのチャネルなど、自然な階層関係を持つディメンションの場合、第 2 レベルのチャネルに分割される場合、第 1 レベルのチャネル情報は次のようになります。第 1 レベルのチャネルと第 2 レベルのチャネルを冗長に組み合わせるには、グループ全体のディメンションを組み合わせるだけで済みます。 2 つ目は、アトリビューション診断の分析では、実際のビジネスでは特に複雑なディメンションには注目しないため、ディメンションの組み合わせの数を制限することですが、通常は 2 つまたは 3 つのディメンションの組み合わせで十分です。 最適化 3: 寸法のジニ係数ソートに基づいて、最適な寸法を決定し、異常に正確な位置決めを実現します。枝刈り後のいくつかの分割次数とそれに対応するディメンション値の寄与がある場合、それらの中から最適なものを選択し、主な理由を特定するにはどうすればよいでしょうか?直感的な考え方としては、特定のディメンションの粒度が細かくなり、ヘッドのトップディメンション値の寄与が大きくなるほど、それがインジケーターの異常の主な原因となる可能性が高くなります。ジニ係数は、このシナリオにより適した測定方法であり、各部分の寄与の二乗和から 1 を引いた値が小さいほど、分割寸法はより合理的になります。 上図の右側は例ですが、ある売上の異常に対して、まず製品の次元に応じて分割する方法です。小さい、ジニ係数は非常に大きい。第2の方法は、粒度に従ってセカンダリチャネルを分解する方法であり、粒度は比較的粗く、計算されたジニ係数は比較的大きな値になる可能性がある。 3 番目の方法は、第 1 レベルの産業と第 2 レベルのチャネルを乗じて計算されます。第 2 レベルのチャネルはさらに 1 レベル掘り下げられ、一部の部分にはプラスの寄与があり、一部の部分にはプラスの寄与があるため、ジニ係数はさらに小さくなる可能性があります。部品には負の寄与があります。プラスの寄与は指標の変動にプラスの影響を与える部分、マイナスの寄与はマイナスの影響を与える部分です。この例では、分割ディメンション産業 1 が 60% の寄与でチャネル 1 と交差しており、これが主原因として分類されていることがわかります。これは私たちの理解とより一致しています。したがって、ジニ係数を通じて、より合理的な分割ディメンションとインジケーターの異常の主な原因を見つけることができます。 A1: 確定診断を使用しているため、結論は非常に明確です。純粋な指標という観点から見ると、計算してコードを書くことで精度が担保されます。ビジネス理解の観点からは、例えば、あるビジネスが正常に業務を行っていることによる例外である場合や、その他の理由による偽陽性や偽陰性が発生している場合など、悪いケースを収集することで精度を評価します。 A2: これは非常に良い実践的な質問です。まず、加算と乗算を混合するというアイデアを使用することが可能で、各ステップの TOP 寸法値の対応する寄与と、次の分解後の寄与を検索して計算するという貪欲な方法を使用できます。次のステップは、寄与度の減少に基づいてそれを加算または乗算によって分解することです。 もう 1 つの考え方は、まず一定の方向に従うことです。たとえば、電子商取引の GMV の場合、最初は足し算で分解し、その後最低値まで分解し続けることもできます。特定の製品について、製品の乗算を実行して、この製品の GMV が低下した理由、トラフィックが低下したか、コンバージョン率が低下したかなどを調べます。具体的なアプローチは、適時性や開発コストなどの考慮事項だけでなく、さまざまな実際のビジネス ニーズと組み合わせる必要があります。 NetEase Yanxuan の現在のシナリオでは、汎用性とビジネス ステータスを考慮すると、ブランド電子商取引企業として外部チャネルを通じて販売する場合、トラフィックやコンバージョン率などの要素が重要になります。ブラックボックスなので、私たちのビジネスシナリオでは主に付加的分解に焦点を当てています。 3. インジケーター異常診断
1. インジケーター異常レベルの診断
2. インジケーターの異常診断方法の比較
3. ビジネスの現状
4. 逆アセンブル寄与度の計算方法
5. インジケーター分解の次元爆発問題
6. インジケーター分解の次元爆発問題の最適化
#4. QA
#Q1: 診断の精度を評価する指標は何ですか?
Q2: 貢献ポイントの解体は混在しますか?例えば、GMVを解体する場合、最初は加算でチャンネルを解体し、次に乗算の式を使用しますが、異なる解体方法を使用する順序はどのように判断すればよいでしょうか?
以上がNetEase は異常なデータ インジケーターをどのように検出して診断しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。