ホームページ > 記事 > テクノロジー周辺機器 > もう 1 つの機械学習モデル解釈アーティファクト: Shapash
モデルの解釈可能性と理解可能性は、多くの研究論文やオープンソース プロジェクトの焦点となってきました。そして、多くのプロジェクトにはデータの専門家と訓練を受けた専門家がスタッフとして配置されています。
Shapash は、ほとんどの sklearn、lightgbm、xgboost、catboost モデルで動作し、分類および回帰タスクに使用できます。 Shap バックエンドを利用してフィーチャのローカル寄与を計算しますが、これはローカル寄与を計算するための他の戦略に置き換えることができます。データ サイエンティストは、Shapash インタープリターを活用してモデルの調査とトラブルシューティングを行ったり、それを導入して各推論を視覚化したりできます。また、エンド顧客や起業家に多大な価値をもたらす Web アプリケーションの作成にも使用できます。
shabash ライブラリ
プロットと出力では、各コンポーネントのタグとそのパターン:
データ サイエンティストは、Web アプリケーションを使用して、グローバルとローカルの近傍を簡単に探索して、モデルを理解し、さまざまなキーポイントがどのように機能するかを理解します:
shapash ライブラリ Webapp
Shapash は、短くてわかりやすい説明。 Shapash の機能が要約され、明確に説明されているため、バックグラウンドに関係なく、すべての顧客がホスティング モデルの明確な説明を理解できます。
完全なデータ レポートは、こちらでご覧いただけます: https://shapash-demo.ossbymaif.fr/
Shapash のいくつかの機能は次のとおりです。
1. 機械学習モデル: 分類 (バイナリまたはマルチクラスの問題) および回帰問題に適しています。 Catboost、Xgboost、LightGBM、Sklearn Ensemble、線形モデル、SVM などの複数のモデルをサポートします。
2. 特徴エンコーディング: ワンホット エンコーディング、順序エンコーディング、Base N エンコーディング、ターゲット エンコーディング、バイナリ エンコーディングなど、データ セット内のカテゴリ特徴を処理するための多数のエンコーディング手法をサポートしています。
3.SklearnColumnTransformer: OneHotEncoder、OrdinalEncoder、StandardScaler、QuantileTransformer または PowerTransformer
4.視覚化: 結果を簡単に説明し、理解しやすく明確な結果を表示する一連の視覚効果を提供します。
5. ライムやシャップと互換性があります。 Shap バックエンドを使用して、わずか数行のコードで結果を表示します。
6. 結果を簡潔に取得するためのパラメータのオプションが多数用意されています。
7.Shapash はインストールと使用が簡単です。Shapash は、モデルを理解し、簡単な構文で要約して明確にするための SmartExplainer クラスを提供します。
8. 導入: 運用上の使用状況の調査と導入 (API またはバッチ モード経由) が重要です。グローバルからローカルに移動する Web アプリケーションを簡単に作成します。
9. 高い汎用性: 結果を表示するには多くの引数が必要です。しかし、データのクリーンアップとアーカイブを強化すればするほど、最終顧客にとっての結果はより明確になります。
Shapash は、機械学習の理解と解釈を容易にする Python ライブラリです。データ愛好家はモデルを簡単に理解して共有できます。 Shapash はバックエンドとして Lime と Shap を使用し、わずか数行のコードで結果を表示します。 Shapash は、妥当な結果を得るために機械学習モデルの構築におけるさまざまな重要な進歩に依存しています。次の図は、shapash パッケージのワークフローを示しています。
Shapash の仕組み
次のコードを使用して Shapash をインストールできます:
<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">pip</span> <span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">install</span> <span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">shapash</span>
Jupyter Notebook の場合: Jupyter Notebook を使用していてインライン グラフを表示したい場合は、別のコマンドが必要です:
<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">pip</span> <span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">install</span> <span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">ipywidgets</span>
ここでは、データセット House Price Prediction を使用して Shapash を調べます。これは回帰問題であり、住宅価格を予測する必要があります。まず、一変量分析と二変量分析を含むデータセットを分析し、次に特徴の重要度、特徴の寄与、局所プロットと比較プロットを使用してモデルの解釈可能性を分析し、次にモデルのパフォーマンス、最後に WebApp を分析します。
一変量分析
使用 以下の画像を表示して、「1 階平方フィート」という名前の要素を理解できます。平均、最大、最小、標準偏差、中央値など、トレーニング データセットとテスト データセットのさまざまな統計を示すテーブルが表示されます。右側の図では、トレーニング データ セットとテスト データ セットの分布プロットが表示されます。 Shapash では、特徴がカテゴリであるか数値であるかについても言及されており、すべての特徴が利用できるドロップダウン オプションも提供されています。
一変量分析
カテゴリ特徴量の場合、トレーニング データセットとテスト データセットには重複しない値と欠損値が表示されます。右側には、各機能の対応するカテゴリの割合を示す棒グラフが表示されます。
機能のカテゴリ
目標分析
販売価格という名前のターゲットの詳細分析も確認できます。変数。左側には、トレーニング データセットと予測データセットの数、平均、標準偏差、最小値、最大値、中央値などのすべての統計情報が表示されます。右側には、トレーニング データセットと予測データセットの分布が表示されます。
#客観的分析多変量分析
一変量分析については上で詳しく説明しました。このセクションでは多変量解析について見ていきます。次の図は、トレーニング データセットとテスト データセットの最初の 20 個の特徴の相関行列を示しています。相関スケールも色別に表示されます。これは、Shapash を使用して特徴間の関係を視覚化する方法です。 多変量解析モデルの解釈可能性特徴重要度プロット
このライブラリを使用して合格この機能の重要性がわかります。特徴重要度は、出力値を予測する際の入力特徴の重要性を見つける方法です。次の図は、機能重要度曲線を示しています。 機能重要度プロット機能寄与度プロット
これらの曲線特徴が私の予測にどのように影響するか、その寄与がプラスかマイナスかなどの質問に答えるのに役立ちます。この図は、モデルの解釈可能性の重要性を完全に示しています。モデルの全体的な一貫性により、モデルに対する機能の影響を理解する可能性が高くなります。 数値特徴とカテゴリ特徴の寄与プロットを確認できます。 #数値特徴の場合
寄与グラフ
カテゴリ特徴の場合#分類機能の場合部分マップ
ローカル マップを描画できます。次の図は、図の一部を示しています。
部分図
比較図
比較図を描くことができます。次の図は比較グラフを示しています。
#比較グラフモデルのパフォーマンスデータ分析後、機械学習モデルをトレーニングしています。 。下の画像は、予測の出力を示しています。左側には、実際の値と予測値の数、最小値、最大値、中央値、標準偏差などの統計が表示されます。右側に、予測値と実際の値の分布が表示されます。 モデルのパフォーマンスWebAppモデルのトレーニング後、WebApp を構築することもできます。この Web アプリには、これまでに説明した内容を含む、データの完全なダッシュボードが表示されます。下の画像はダッシュボードを示しています。#WebApp
プロジェクトアドレス: https://github.com/MAIF/shapash
最後に書いてください
以上がもう 1 つの機械学習モデル解釈アーティファクト: Shapashの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。