ホームページ >テクノロジー周辺機器 >AI >AI疲労はデータガバナンスによって解決できるのでしょうか?

AI疲労はデータガバナンスによって解決できるのでしょうか?

王林
王林転載
2024-01-18 17:51:22827ブラウズ

AI疲労はデータガバナンスによって解決できるのでしょうか?

データ ガバナンスと AI 疲労は 2 つの異なる概念のように聞こえるかもしれませんが、この 2 つは本質的に関連しています。よりよく理解するために、その定義から始めましょう。

データ ガバナンス

データガバナンスは、長年にわたってデータ業界の中核的な焦点でした。

データ ガバナンスとは、データの収集、保管、処理、廃棄を規制する内部標準とデータ ポリシーの開発を含め、データの安全性、プライベート性、正確性、可用性、信頼性を確保するためのすべての対策です。このプロセスは、ユーザーのプライバシーを保護し、データの整合性を維持するために重要です。

この定義が強調しているように、データ ガバナンスはデータ、正確には AI モデルを駆動するエンジンの管理に関するものです。

データ ガバナンスと AI の関係は最初は明らかですが、疲労の原因を強調することでそれを AI 疲労と結び付けることで、記事全体でこの用語を一貫して使用することが保証されます。

AI 疲労

AI 疲労は、企業、開発者、チームが直面する挫折や課題によって発生する可能性があり、その結果、AI システムの実装や価値の実現が妨げられます。

AI を過剰に宣伝する主な理由は、その機能に対する非現実的な期待です。 AI の価値と用途を適切に評価するには、関係者が AI の機能、可能性、限界、リスクについて調整する必要があります。

リスクに関して言えば、倫理は後回しにされることが多く、準拠していない AI イニシアチブの放棄につながります。

あなたは、AI 疲労を引き起こすデータ ガバナンスの役割について疑問に思っているはずです。これがこの記事の前提です。

次に向かうのはここです。

AI 疲労は、導入前と導入後に大きく分けられます。まず、展開前の作業に焦点を当てましょう。

導入前

概念実証 (PoC) から導入に移行するには、次のような多くの要素があります。

  • どのような問題に取り組んでいるのか解決すべき問題は何ですか?
  • なぜ優先順位付けが緊急の課題になっているのですか?
  • 利用可能なデータは何ですか?
  • ML ファーストですか?解決可能ですか?
  • データはありますか?パターン?
  • この現象は繰り返される可能性がありますか?
  • どのようなデータを追加するとモデルのパフォーマンスが向上しますか?

ML アルゴリズムの最適な使用方法を評価したら問題をうまく解決するために、データ サイエンス チームは探索的データ分析を実行します。この段階では、基礎となるデータ パターンの多くが明らかになり、特定のデータに豊富な信号が含まれているかどうかが強調され、アルゴリズムの学習プロセスを高速化するための工学的特徴の作成にも役立ちます。

次に、チームは最初のベースライン モデルを構築しますが、多くの場合、そのパフォーマンスが許容レベルに達していないことがわかります。コインを投げるのと同じくらい優れた出力をもつモデルには何の価値もありません。これは、ML モデルを構築する際に最初に挫折し、得られる教訓の 1 つです。

企業は、あるビジネス上の問題から別の問題に移り、疲労を引き起こす可能性があります。それでも、基礎となるデータに豊富な信号が含まれていない場合、その上に AI アルゴリズムを構築することはできず、モデルはトレーニング データから統計的関連性を学習して、目に見えないデータに一般化する必要があります。

デプロイ後

トレーニングされたモデルは検証セットで有望な結果を示しますが、モデルが運用環境で完全に使用できない場合は、70% の精度などの認定されたビジネス標準に従っています。容量、疲労がまだ発生する可能性があります。

このタイプの AI 疲労は、導入後フェーズと呼ばれます。

パフォーマンスの低下を引き起こす原因は数多くありますが、データ品質の低下がモデルを悩ませる最も一般的な問題であり、主要な属性がない場合にターゲットの応答を正確に予測するモデルの能力が制限されます。

トレーニング データの 10% にのみ欠落していた重要な特徴の 1 つが、運用データでは 50% の確率で null になり、不正確な予測につながると考えてください。モデルが一貫して実行されると、データ サイエンティストとビジネス チームが疲弊し、データ パイプラインに対する信頼が失われ、プロジェクトへの投資がリスクにさらされます。

データ ガバナンスが鍵

どちらのタイプの AI 疲労にも対処するには、堅牢なデータ ガバナンス対策が不可欠です。データが ML モデルの中核であることを考えると、ML プロジェクトの成功には信号が豊富でエラーのない高品質のデータが必要です。 AI 疲労に対処するには、データ ガバナンスに重点を置く必要があります。したがって、私たちは正しいデータ品質を確保するために厳密に取り組み、最先端のモデルを構築し、信頼できるビジネス洞察を提供するための基礎を築く必要があります。

データ品質

データ品質はデータ ガバナンスを成功させる鍵であり、機械学習アルゴリズムの成功の重要な要素です。企業は、データ消費者にレポートを公開するなど、データ品質に投資する必要があります。データ サイエンス プロジェクトでは、低品質のデータがモデルに入力された場合に何が起こり、パフォーマンスの低下につながる可能性があるかを考えてください。

チームはエラー分析中にのみデータ品質の問題を特定できます。これらの問題が修正のために上流に送信されると、最終的にチーム間の疲労につながります。

明らかに、これには労力がかかるだけでなく、正しいデータの入力が開始されるまでに多くの時間が失われます。

因此,始終建議從源頭修復資料問題,以防止此類耗時的迭代。最終,發布的數據品質報告暗示數據科學團隊(或任何其他下游用戶和數據消費者)了解傳入數據的可接受品質。

如果沒有資料品質和治理措施,資料科學家將因資料問題而不堪重負,從而導致導致AI疲勞的不成功模型。

結束語

這篇文章強調了AI疲勞開始的兩個階段,並介紹了數據品質報告等數據治理措施如何能夠推動構建值得信賴和健壯的模型。

透過資料治理建立堅實的基礎,公司可以建立成功且無縫的AI開發和採用的路線圖,灌輸熱情。

為了確保這篇文章全面概述了應對AI疲勞的各種方法,我還強調了組織文化的作用,組織文化與資料治理等其他最佳實踐相結合,將使資料科學團隊能夠更快、更快地建立有意義的AI貢獻。

以上がAI疲労はデータガバナンスによって解決できるのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。