ホームページ >テクノロジー周辺機器 >AI >責任ある機械学習 – 「ガラスの箱」アプローチ
翻訳者 | Cui Hao
レビュアー | Sun Shujuan
機械学習は奥深いテクノロジーではありません。複雑なディープ ニューラル ネットワークにおけるマルチパラメーターおよびハイパーパラメーターの手法がコグニティブ コンピューティングの単なる形式であるのと同様に、それらはそれほど奥深いものではないようです。
他のタイプの機械学習もあります (ディープ ニューラル ネットワークを含むものもあります)。このタイプの機械学習のモデルの結果、モデルの決定、および複雑さは、モデルに影響を与えるものはすべて非常に透明です。
これはすべて、組織がデータのソースをどの程度理解しているかによって決まります。
言い換えれば、モデルのトレーニング データから運用データ モデルまですべてを理解する必要があります。また、結果を解釈、洗練、改善するためにも不可欠です。このようにして、組織はモデルのビジネス価値を大幅に高めることができます。
さらに重要なのは、このテクノロジーの公平性、説明責任、透明性がさらに向上し、社会全体にとって信頼性と完全性が向上することです。
Databricks のマーケティング担当副社長である Joel Minnick 氏は次のように認めています。「責任を持って機械学習を行うには、データの上流と下流を詳細に理解する必要があるのはこのためです。」
モデルのデータ トレーニングとデータ生成には、データ ソース、データ変換、データ統合などの複数のテクノロジが関係します。成熟したデータ カタログ ソリューションでは、リアルタイムのデータ キャプチャが実現できるため、いつでも進行状況を監視してモデルの実行の進行状況を把握できます。 「モデル内でデータが使用されているコンテキストを明確に理解できるようになります。また、このデータはどこから来たのか? そこから他にどのようなデータを取得したのか? それはいつ生成されたのか? それで、このデータをどのように使用すべきかをよりよく理解するためです」とデータサイエンティストのミニク氏は述べています。
「データ系統」 (データ ソースの記録、移動、処理) はメタデータで構成され、データ ディレクトリは関連するデータ セットを保存するために使用されます。また、カタログを使用すると、ユーザーはタグやその他の記述子を追加のメタデータとして含めることができ、データの出所を追跡し、データの信頼性を確立するのに役立ちます。 Minnick 氏が説明する「データ リネージ」は、さまざまなプラットフォーム (データ サイエンティスト プラットフォーム、データ エンジニア プラットフォーム、エンドユーザー プラットフォームを含む) を接続する「API 主導のサービス」を生成できます。
データ トレーニングとデータ操作のトレーサビリティの向上は、機械学習モデルの結果に影響を与え、モデルの結果はデータ ガバナンスに関連します。データ サイエンスの分野。密接に関連しています。したがって、データ ガバナンスは、モデルを作成してデプロイするデータ サイエンス プラットフォームと密接に関係しています。 「スキルはスプレッドシートとファイルの管理、ノートブックの管理、ダッシュボードの管理を同時に行います。これは、生産データと消費データを管理する最新の方法です」と Minnick 氏はコメントしました。この言葉は、ノートブックでモデルを構築し、ダッシュボードを通じて出力を監視するデータ サイエンティストにとって当てはまります。
とはいえ、API を介してデータ サイエンス ツール プラットフォームに接続して「データ リネージ」を取得するだけでは、機械学習を透過的に活用することの 1 つの側面にすぎません。モデルの出力を向上させるという目的を達成するには、データリネージで決定された内容で出力モデルを調整する必要もあります。たとえば、データサイエンティストが「データに何か問題があった場合にそれを理解し、データのその部分を切り分けることができる」ように、データのトレーサビリティをモデル化する方法についてミニク氏は述べた。
論理的には、この知識を使用して、特定のデータ型に問題がある理由を理解し、問題を修正したり、完全に削除してモデルの精度を向上させることができます。 Minnick 氏によると、「今日のさまざまな業界で機械学習と人工知能が台頭していることもあり、ますます多くの組織がモデル結果に「データ リネージ」を適用する利点を認識しています。これはますます一般的になってきています。昨年、 AutoML 製品を発売したとき、データ ソースへの透明性を表すために「ガラスの箱」を使用しました。」
一部の組織では、次の機能を提供するために「データ リネージ」も使用しています。適応型コグニティブ コンピューティング モデルを使用して、規制順守能力を強化します。金融やヘルスケアなどの業界は厳しく規制されており、企業は顧客のために意思決定を行う方法を明確に説明する必要があります。データのトレーサビリティは、機械学習モデルを構築し、モデルの結果を理解するためのロードマップを作成します。これは、規制遵守にとって非常に貴重です。
この情報は内部監査にも役立ち、企業が規制分野のどこに欠陥があるかを把握できるため、問題を修正して違反を防ぐことができます。 「テーブル全体だけでなく、広範な組織のどこでもそのデータを使用できる非常に詳細なデータ系統情報を規制当局に提示できることは、非常に重要です」とミニク氏は主張します。この利点が、データ ソースによってモデルの精度が向上するという考えと一致する場合、このアプローチは、このテクノロジを導入するためのベスト プラクティスになる可能性があります。
Cui Hao は、51CTO のコミュニティ編集者兼シニア アーキテクトであり、ソフトウェア開発とアーキテクチャの経験が 18 年、分散アーキテクチャの経験が 10 年あります。元HPの技術専門家。彼は喜んで共有し、600,000 回以上読まれる人気の技術記事を多数執筆してきました。 『分散アーキテクチャの原則と実践』の著者。
原題: A "Glass Box" Approach to Responsible Machine Learning 、著者: Jelani Harper
以上が責任ある機械学習 – 「ガラスの箱」アプローチの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。