ホームページ >テクノロジー周辺機器 >AI >Pythonの因果AIを始める - コードの例と最初のステップ
多くの業界の専門家は、データ駆動型の決定を下す際の一般的な予測アルゴリズムの信頼性に疑問を呈しています。 チョコレート消費とノーベル賞受賞者の間のような偽の相関は、相関と因果関係の重要な区別を強調しています。 相関は存在しますが、因果関係を自動的に意味するものではありません。 根本原因を理解し、データ分析を使用することは、マイクロソフトやアマゾンなどの大手企業が因果AIに多額の投資をするために不可欠です。 このチュートリアルでは、PythonのDowhy Libraryを使用して基本的な因果AI概念を紹介します。 標準的な機械学習とは異なりますが、回帰分析の基本的な把握が役立ちます。 Datacampの「Pythonの線形モデリングの紹介」および「ビジネスのための機械学習」コースは、関連する背景を提供します。
因果AI基礎
因果推論には、予測分析とは異なるアプローチが必要です。 ナンシー・カートライトの「原因なし、原因なし」は、因果的な答えを得るための因果構造に関する仮定の必要性を強調しています。純粋にデータ駆動型のアプローチは不十分です。 因果関係を判断するには、代替の説明を排除する必要があり、データ自体を超えて外部の知識を必要とします。 従業員の生産性に対する新しい仕事(WFH)ポリシーの影響を検討してください。 初期分析では、WFHの従業員のタスク完了が高いことが示される可能性がありますが、これは因果関係がありますか? 従業員の性格や家族の状況などの他の要因は、WFHの好みと生産性の両方に影響を与え、一般的な原因として機能する可能性があります。
注:因果関係によって作成されたグラフ
dowhy in python
MicrosoftのDowhy Library(Pywhyエコシステムの一部)は、Pythonの因果分析のための主要なツールです。 因果推論の手順を説明するためにデータをシミュレートします
Dowhyは、表1に示すようにラベルを使用しています(元のテーブルは変わらないままです)。 因果グラフは、データパラメーターによって暗黙的に定義されます。 Dowhyはドット言語を使用してグラフを表します データとグラフを組み合わせた因果モデルが作成されます:
!pip install git+https://github.com/microsoft/dowhy.git import numpy as np import pandas as pd import dowhy from dowhy import CausalModel import dowhy.datasets import statsmodels.api as sm # Set seed for reproducibility np.random.seed(1) # Simulate data data = dowhy.datasets.linear_dataset( beta=1, num_common_causes=2, num_discrete_common_causes=1, num_instruments=1, num_samples=10000, treatment_is_binary=True) df = data['df'] # ... (rest of the DoWhy code remains the same) ...因果分析とバイアスの削減
digraph {v0->y;W0-> v0; W1-> v0;Z0-> v0;W0-> y; W1-> y;}単純な線形回帰は勾配係数を示しますが、これは一般的な原因のためにバイアスされる可能性があります。 Dowhyのバックドア基準は、治療と結果の両方に影響を与える変数を制御することでこれに対処するのに役立ちます(この例では内向性と子供の数)。
!pip install git+https://github.com/microsoft/dowhy.git import numpy as np import pandas as pd import dowhy from dowhy import CausalModel import dowhy.datasets import statsmodels.api as sm # Set seed for reproducibility np.random.seed(1) # Simulate data data = dowhy.datasets.linear_dataset( beta=1, num_common_causes=2, num_discrete_common_causes=1, num_instruments=1, num_samples=10000, treatment_is_binary=True) df = data['df'] # ... (rest of the DoWhy code remains the same) ...
Dowhyはさまざまな推定方法を提供します。ここでは、一般性のために逆確率の重み付けが使用されます。 結果として得られる推定は、グラウンドトゥルースに近く、バイアスの削減を示しています。
ストレステストと堅牢性
Dowhyの反論テストは、仮定の信頼性を評価するのに役立ちます。 観察されていない共通原因を追加すると、推定値の範囲に大きな影響を与え、観察不可能な変数の影響を強調します。
機器変数(WFHに影響を与えるが生産性に直接影響しない地下鉄の閉鎖など)は、代替識別戦略を提供します。 Dowhyは自動的に適切な機器を識別し、より正確ではありませんが、より堅牢性を提供します。
結論
Dowhyは因果AIを簡素化し、包括的なパイプラインを提供します。 基本を習得した後、高度なテクニックやその他のライブラリを探索します。 因果関係の推論には、適切なモデルと仮定を定義するためにドメインの専門知識とコラボレーションが必要です。 この努力は、情報に基づいたビジネス上の決定に不可欠な因果的な答えを得るために価値があります。 Datacampの「機械学習のためのビジネス」コースは、さらなる学習機会を提供します。
以上がPythonの因果AIを始める - コードの例と最初のステップの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。