ホームページ  >  記事  >  テクノロジー周辺機器  >  因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

PHPz
PHPz転載
2023-04-11 19:43:021473ブラウズ

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

はじめに: この共有のタイトルは、「因果推論でデータをより有効に活用するには?」です。 」 」では、因果関係に関する出版論文に関連したチームの最近の研究を主に紹介します。本レポートでは、より多くのデータを活用して因果推論を行う方法を、履歴管理データを活用して明示的に混乱バイアスを軽減する方法と、複数ソースデータの融合による因果推論の2つの側面から紹介します。

#全文目次:

  • #因果推論の背景
  • 修正因果ツリー GBCT
  • 因果データ融合
  • Ant のビジネス アプリケーションの場合
1. 因果推論の背景

機械学習の一般的な予測問題たとえば、喫煙者の肺がんの確率の予測、画像の分類、その他の予測問題などでは、通常、独立した同一の分布が想定されます。因果関係の問題は、データの背後にあるメカニズムに関係します。「喫煙は肺がんの原因になりますか?」などのよくある質問も同様の質問です。

因果効果推定の問題では、非常に重要な 2 つのタイプのデータがあります。1 つのタイプは観測データで、もう 1 つのタイプはランダム化によって生成された実験データです。管理された実験です。

    #観測データは、私たちの実際の生活や製品の中で蓄積されたデータです。たとえば、喫煙データは喫煙を好む人がいることを示していますが、観察データは喫煙者に関するものであり、最終的には喫煙者の中にはがんになる人もいます。機械学習の予測問題は、条件付き確率 P (肺がんになる | 喫煙)、つまり、喫煙条件が与えられた場合に、喫煙者が肺がんになる確率を推定することです。上記の観察データでは、喫煙の分布は実際にはランダムではありません。喫煙に対する好みは人それぞれ異なり、環境にも影響されます。
  • #因果関係の質問に答える最良の方法は、ランダム化比較実験を実施することです。実験データは、ランダム化対照実験を通じて取得されます。ランダム化比較試験では、治療への割り当てはランダムです。 「喫煙が肺がんの原因となるかどうか」という結論を得るために実験を行う必要があるとします。まず、十分な数の人々を見つけ、そのうちの半数には喫煙を強制し、残りの半数には禁煙を強制し、肺がんの発生確率を観察する必要があります。 2つのグループに分けられるがん。倫理やポリシーなどの要因により、一部のシナリオではランダム化比較試験は不可能ですが、検索プロモーションにおける A/B テストなど、一部の分野ではランダム化比較試験を引き続き実施できます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?#因果推定問題 E(Y|do(X)) 問題と従来の予測または分類問題 E(Y|X) の主な違いは、Judy Pearl によって提案された介入シンボル do が与えられた条件で現れることです。介入して X 変数を特定の値に強制します。本報告書における因果関係の推定とは、主に観測データから因果関係を推定することを指します。

#因果推論でデータをより効果的に活用するにはどうすればよいでしょうか?本レポートでは、このようなトピックについて、2つのチームが発表した最近の論文を例に紹介します。

  • 最初の仕事は、過去の比較データをより有効に活用する方法です。例えば、ある時点でマーケティング促進イベントが開催される場合、その時点より前の時間を「介入前」と呼び、この時点より後の時間を「介入後」と呼びます。次の決定を下す際に役立てるため、介入する前に介入の実際の効果を知りたいと考えています。このマーケティング キャンペーンを開始する前に、ユーザーの過去のパフォーマンス データが存在します。最初のタスクは、介入の効果をより適切に評価するためのデータ修正作業を支援するために、「介入前」のデータを有効に活用する方法を紹介することです。
  • #2 番目の作品では、主にマルチソースの異種データをより効果的に活用する方法を紹介します。このような問題は機械学習に関係することが多く、一般的な問題にはドメイン適応、転移学習などが含まれます。本日のレポートでは、因果関係の観点からマルチソースの異種データの活用について考えます。つまり、複数のデータソースがあると仮定して、因果効果をより適切に推定する方法について考えます。

#2. 修正原因と結果ツリー GBCT

1. 従来の原因と結果ツリー

ツリー アルゴリズムは主に 2 つのモジュールで構成されます:

  • 分割基準: 分割基準に従って 1 つのノードを 2 つの子ノードに分割します
  • パラメータ推定: スプリットの完了後、たとえば最終的にスプリットが停止されたとき、パラメータ推定方法に従って、新しいサンプルまたはグループの因果効果がリーフ ノード上で予測されます。

従来の因果ツリー アルゴリズムの中には、因果効果の不均一性に基づいて分割されているものがあります。データ分布における因果関係の不均一性。

従来の因果ツリーの分割基準は次のとおりです。

  • 隆起ツリーの分割基準は、左右の子ノードの因果効果差、差の尺度にはユークリッド距離や KL 発散などの距離尺度が使用されます。
  • #因果ツリー分割基準は直感的に使用できます。因果効果の二乗を最大化すると説明されます。この分割基準は、リーフ ノードの因果効果の分散を最大化することと同等であることが数学的に証明できます。
一般的なパラメータ推定方法は、因果関係の推定値として、分割リーフ ノード上の対照グループの平均結果から実験グループの平均結果を直接差し引くことです。効果と値ランダム化比較実験の場合、治療の配分メカニズムはランダムであり、そこから計算された平均差が因果効果となります。ランダム割り当てメカニズムにより、実験グループと対照グループのデータ分布が同じになることが保証されます。これは均一性と呼ばれます。

因果ツリーでは、子ノードが分割されて得られますが、分割されて得られた左の子ノードと右の子ノードの分布が均一になることは保証できるでしょうか?

2. 補正因果ツリー GBCT

従来の因果ツリーと隆起ツリーでは、左側を保証できません分割後、子ノードと右側の子ノードの分布は均一になります。したがって、前のセクションで説明した従来の推定 因果推論でデータをより有効に活用するにはどうすればよいでしょうか?# にはバイアスがかかっています。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

私たちの研究は、実験グループ (治療グループ) に対する平均因果効果 CATT を推定することに焦点を当てています。 CATT は次のように定義されます:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

##さらに、従来の因果効果推定は 2 つの部分に分割できます:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

選択バイアス/交絡バイアスは次のように定義できます:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

##直観的な意味は、実験グループの治療 = 0 の場合の推定値から、対照グループの治療 = 0 の場合の推定値を引いたものです。従来の因果関係ツリーでは、上記のバイアスは特徴づけられておらず、選択バイアスが推定値に影響を及ぼし、最終的な推定値にバイアスがかかる可能性があります。

私たちのアイデアは、製品またはプラットフォームに蓄積された過去の比較データを使用して、選択のバイアスを明示的に削減することです。具体的な操作は 2 つの仮定に基づいています:

  • 仮定 1: 介入前の治療 = 0 の状態での実験グループと対照グループの結果パフォーマンスを観察できます。 。金融商品におけるクレジットカード商品の限度額増額操作を例にとると、限度額増額前のユーザーの普段の利用実績、つまり限度額を増額しない実験群と対照群の成果パフォーマンスを観察することができます(治療)。 =0) が利用可能;
  • 仮定 2: 結果の y が介入前後で一定の連続性を満たすと仮定します。直感的に理解できることは、ユーザーまたはグループの行動の変化は介入の前後でそれほど急激ではないということです。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?具体的なアプローチ:

① 分割基準

  • 分割基準の最初の部分は従来の因果関係ツリーに似ており、過去のデータの結果を当てはめることによって経験の損失を軽減します。。たとえば、金額には言及せずに、機能を通じてユーザーの行動に合わせるなどです。
  • #分割基準の 2 番目の部分は、混同エントロピーを使用することです。平均二乗誤差と比較して、混同エントロピーは高次の情報を捉えることができます。式:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

直観的な意味は次のとおりです。実験グループでは、対照グループのモデルを使用します。推定; 対照群では、推定に実験群のモデルを使用します; 実験群と対照群の分布が可能な限り同じになるように、2 つの部分の推定値を可能な限り近づけます。混乱エントロピーの使用は、私たちの研究の主な貢献の 1 つです。

  • 最終的な損失は、上記 2 つの部分の加重合計です。損失の主な用途は、介入前のデータ (経験損失の部分は介入後のデータを使用して引き続き適合されます)、つまり、介入前のデータであることに注意してください。介入は補助的な矯正に使用されます。

#② パラメータ推定

  • パラメータ推定は事後介入 (t≥τ) を使用します。 ) 因果関係を推定するためのデータ。主に介入前のデータを用いて木構造を得る修正学習を行い、介入後のデータを葉ノードの因果関係推定に用いますが、介入前のデータは明示的な修正に用いられるため、介入後のデータは介入は計算に使用されます。推定はより正確になります。
  • (PPT の右側) は右の図に示されており、黄色の線は実験グループを表し、青のグループは対照グループを表します。 。ビジネスの戦略によっては、実験グループと対照グループの割り当てが非ランダムになる場合があり、この 2 つの配分には大きな差が生じます。 GBCT 補正後は、葉ノードへの介入前の実験群と対照群のデータ分布は基本的に一致しており、ある意味、擬似的なランダム化比較実験と同様の効果が得られます。因果効果 (線の下の黄面積から青線の下の面積を差し引いた面積) を推定するために使用される方が、より正確になります。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

#従来のツリー モデルの統合には、バギングやブースティングなどの方法が含まれます。隆起フォレストと因果フォレストの統合方法はバギング法であり、隆起フォレストの統合は直接加算ですが、因果フォレストの統合は損失関数を解く必要があります。

# GBCT で設計された明示的補正モジュールにより、GBCT はブースティング手法を使用した積分をサポートします。基本的な考え方はブースティングと似ています。最初のツリーが修正された後、2 番目のツリーが修正され、3 番目のツリーが修正されます...

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

実験は 2 つの部分で行われました:

① シミュレーション実験。

グラウンド トゥルースを含むシミュレーション実験で、GBCT 法が期待される結果を達成できるかどうかをテストします。シミュレーション実験のデータ生成は 2 つの部分に分かれています (表の最初の列 Φ は選択バイアスを表します。Φ 値が大きいほど、対応する選択バイアスが強くなります。表内の値は MAE です。MAE 値が小さいほど、 、方法が優れているほど) :

  • 最初の部分は、交絡変数が観察されたことです。交絡変数がすべて観察されたら、GBCT 手法が従来の手法よりも堅牢であるかどうかをテストします。表のデータから、選択バイアスが大きいほど、従来の手法 (メタ学習器、因果フォレストなど) のパフォーマンスが低下すると結論付けることができます。
  • #2 番目の部分は、観測されていない交絡変数の存在です。この時点で、多くの従来の方法の有効性は大幅に悪化します。 GBCT の場合、観測されていない交絡変数の存在下でもパフォーマンスは比較的安定しており、他の方法よりも一貫して優れたパフォーマンスを示します。
  • #表の最後の 2 つの列 (GBCT-ND、GBCT-B) はアブレーション実験、つまり、いくつかのモジュールが削除された GBCT の弱体化バージョンです。これは私たちの提案をさらに説明しています。どのモジュールも役に立ちます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?②実際のクレジット カードの限度額引き上げデータ

。ランダム化比較実験が実施され、ランダム化比較実験に基づいて偏ったデータが構築されました。 GBCT 手法は、さまざまな設定にわたって一貫して従来の手法より優れたパフォーマンスを示し、特に偏ったデータに対しては従来の手法よりも大幅に優れたパフォーマンスを発揮します。

3. 因果データの融合

2 番目のタスクは因果データの融合、つまり因果効果をより適切に推定する方法です。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

#主なシンボル: 複数のデータ ソース、Y は結果、A は治療、X は懸念事項の関連性 変数、 Z は X を除く各データ ソース (ドメイン) の他の共変量、S はどのドメインに属するかを示すために使用されるドメインの指標、μ は潜在的な結果の期待値です。結果を次の式に分解します。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

##ターゲット関数 δ は、各ドメインに対する因果関係を推定するために使用されます。 、迷惑関数には、主効果、傾向スコア、ドメイン傾向スコア、効果の分散などが含まれます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

メタ学習器などの一部の従来の手法は、データの起源が同じであることを前提としています。つまり、分布は一貫しています。一部の従来のデータ融合手法は、ドメイン間の集団の異質性を処理できますが、ドメイン間の介入結果や因果関係の異質性を明示的に捉えることはできません。私たちの研究は、介入結果におけるドメイン間の異質性や因果関係におけるドメイン間の異質性など、ドメイン間のより複雑な異質性への対処に焦点を当てています。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?#WMDL アルゴリズムのフレームワーク図を上の図に示します。主なモジュールは次のとおりです:

    #傾向スコア
  • ##結果モデル
  • #因果情報認識重み付けモジュール
  • 3 つのモジュールを組み合わせて最終推定値を取得します。 WMDL アルゴリズムの 3 つのハイライトは次のとおりです。

#クロスドメイン異質性のさまざまな程度を特徴付ける方法

  • #より多くの情報を使用するための重み付けモジュールを設計する方法
  • 二重に堅牢な推定値を取得する方法
  • この研究では、実験グループの結果と対照グループの結果を推定し、差を付けることはしませんでした。結果を推定するのではなく、因果関係を直接推定する、つまり直接学習です。直接学習の利点は、実験グループと対照グループの高周波ノイズ信号を回避できることです。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

左の部分では、因果関係が複数のドメイン間で同じであると仮定していますが、結果は不均一である可能性があります。右側は、各ドメイン間の因果効果が異なる、つまり、異なるドメイン間では、その共変量が同じであっても、その因果効果も異なると仮定しています。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

式は分解式に基づいて導出され、結果 Y から主効果を引いたものを治療で割ったものが I(X) と推定され、得られる最適解は δ(X) となります。 因果推論でデータをより有効に活用するにはどうすればよいでしょうか? の分子は、後で説明する因果情報を認識した重み付けモジュールであり、これは私たちの研究の主な貢献です; 分母は、二重ロバスト手法の傾向スコアに似ていますが、この研究では両方のドメイン情報が含まれる点が異なります。が考慮されます。異なるドメイン間の因果関係が異なる場合には、そのドメインの指標情報も考慮されます。

この作業には 3 つの利点があります:

① さまざまな設計を通じて、介入結果の不均一性を処理できるだけでなく、因果関係間の不均質性;

② 二重の堅牢性の特性を持っています。論文では、ドメインの傾向スコア モデルまたは主効果モデルの推定値に偏りがない限り、最終的な推定値にも偏りがないことが証明されています (実際の状況はもう少し複雑です。詳細については論文を参照してください)。 ;

#③ この作業では、主にセミパラメトリック モデルのフレームワークを設計しました。モデルの各モジュールは任意の機械学習モデルを使用でき、モデル全体をニューラル ネットワークに設計してエンドツーエンドの学習を実現することもできます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

#Weighting のモジュールは、統計学の効率限界理論に基づいています。これには主に 2 つの側面の情報が含まれています:

因果推論でデータをより有効に活用するにはどうすればよいでしょうか? は、ドメイン間の分布の違いをバランスよく変換するためのモジュールです。 因果推論でデータをより有効に活用するにはどうすればよいでしょうか?# は因果情報モジュールです。左側の 3 つの図は、ソース ドメインとターゲット ドメインの分布の差が大きい場合、ターゲット ドメインに近いサンプルが優先されます。

② 分母の傾向スコア関数の設計により、実験グループと対照グループの重複するサンプルに比較重みが与えられます。大きな重み;

#③ V を使用して、データ内のノイズを特徴付けます。ノイズは分母にあるため、ノイズが少ないサンプルの重みは大きくなります。

上記の 3 つの部分を巧みに組み合わせることで、異なるドメイン間の分布の違いと異なる因果情報のパフォーマンスを、統一されたドメインにマッピングできます。

因果推論でデータをより有効に活用するにはどうすればよいでしょうか?

同種因果効果か異種因果効果に関係なく、WMDL (加重マルチドメイン直接学習) 手法の方が良い結果が得られます。 。右の写真は加重モジュールによるアブレーション実験であり、加重モジュールの有効性を示しています。要約すると、WMDL メソッドは他のメソッドよりも一貫して優れたパフォーマンスを示し、推定された分散は比較的小さいです。

4. Ant のビジネス アプリケーション

金融信用リスク管理シナリオでは、割当量の増加や価格引き下げなどの介入手法により、残高やリスクの変化などの期待される効果が達成されることが期待されます。いくつかの実際のシナリオでは、GBCT の矯正作業は、額リフト前の期間の履歴パフォーマンス (額リフトを行わない実験グループと対照グループの状態を取得できます) を使用し、履歴情報を通じて明示的な矯正を実行します。そのため、介入後の推定値がより正確になります。介入前の行動が揃うように GBCT が子ノードに分割されると、介入後の因果効果の推定が容易になります。 (修正後) 図中、赤色が額上げ群、青色が額上げなし群、中央の灰色の部分が推定因果効果である。 GBCT は、より適切なインテリジェントな意思決定を行い、クレジット商品のバランスとリスクを管理するのに役立ちます。

#5. 質疑応答

#Q1: GBCT 補正と二重差分法 (した)?

A1: GBCT 補正の主なアイデアは、履歴比較情報を使用して選択バイアスを明示的に低減することです。GBCT 法と DID 二重差分法には類似点と相違点があります。 :

  • 類似点は、両方とも履歴情報を使用することです。
  • ##違いは、2 つの履歴情報の処理方法にあります。 DID は、履歴データにおける実験グループと対照グループの間に一定の一定のギャップ (ギャップ) があると仮定し、予測時にそのギャップ (ギャップ) を差し引きます。選択バイアスのため、実験グループとコントロール グループの割り当てはランダムではありませんが、GBCT はバイアス補正を通じて過去の実験グループとコントロール グループを揃えます。

Q2: GBCT は、観測されていない交絡変数に対してより優れたパフォーマンスを発揮します。より直観的な説明はありますか?

A2: すべての交絡変数が観察された場合、無視可能性の仮定はある程度満たされますが、選択バイアスは明示的に減少しませんが、実験はまた、従来の方法でグループとコントロール グループの整合性を達成することは可能であり、実験では GBCT のパフォーマンスがわずかに優れており、明示的な補正により結果がより安定していることが示されています。

観測されていない交絡変数がいくつかあると仮定します。この種のシナリオは、実際には非常に一般的です。観測されていない交絡変数は、履歴管理データにも存在します。変数:割り当てが引き上げられる前の家族状況や収入の変化は観察できない可能性がありますが、ユーザーの経済行動は過去のデータに反映されています。私たちは、過去のパフォーマンス情報による混同エントロピーなどの方法を通じて選択バイアスを明示的に削減し、ツリーが分割されたときに交絡変数間の異質性を分割された子ノードに特徴付けることができるようにしたいと考えています。子ノードの中で、観測されていない交絡変数は比較的近いため確率が高く、推定される因果効果は比較的正確になります。

Q3: GBCT と Double Machine Learning (DML) を比較したことがありますか?

#A3: 比較が行われました。ダブル機械学習はセミパラメトリック手法です。この記事での作業はツリーベースのメソッドに重点を置いているため、選択される基本学習器はツリーまたはフォレスト関連のメソッドです。表内の DML-RF は、ランダム フォレストの Double Machine Learning バージョンです。

#DML と比較して、GBCT は主に履歴比較データの使用方法を考慮します。比較方法では、履歴結果が共変量として直接処理されますが、この処理方法では明らかに情報が有効に活用されていません。

#Q4: ビジネスで遭遇する可能性のある同様の問題は、オフラインでの選択バイアスが存在する可能性があることです。ただし、オンラインのバイアスはオフラインのバイアスとは多少異なる場合があります。現時点では、オフラインで効果評価を行う場合、オフラインの効果をあまり正確に推定する方法がない可能性があります。

#A4: この問題は金融の現場において非常に本質的な問題です。検索プロモーションでは、オフラインとオンラインの違いは、オンライン学習や A/B テストを通じて部分的に克服できます。金融シナリオでは、政策の影響によりオンラインで実験を行うのは容易ではなく、また、パフォーマンスの観察期間も通常より長くなり、例えばクレジット商品の場合、ユーザーのフィードバックを観察するには少なくとも1か月かかります。したがって、この問題を完全に解決することは実際には非常に困難です。

当社では通常、オフライン評価時の検証にさまざまな期間 (OOT) のテスト データを使用し、そのパフォーマンスの堅牢性を観察するというアプローチを採用しています。テストのパフォーマンスが比較的安定している場合、オンラインのパフォーマンスも良好であると信じる理由が比較的多くなります。

以上が因果推論でデータをより有効に活用するにはどうすればよいでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。