ホームページ >テクノロジー周辺機器 >AI >データ管理は生成人工知能の健全な発展の鍵です
2023 年は人工知能時代の正式な始まりとなり、ほぼ全員が ChatGPT について話しています。
ChatGPT のような生成型人工知能言語モデルは、人工知能が対話する様子を観察できるという初めての理由から、私たちの注目と関心を集めてきました。私たちは実在の人物が好きで、創造的だと思う記事、詩、その他の新しいコンテンツを生成します。生成 AI ソリューションは、より迅速かつ優れたイノベーション、生産性、価値の実現を可能にする画期的な可能性に満ちているように見えます。ただし、その制限は広く知られておらず、データ プライバシーとデータ管理のベスト プラクティスも広く理解されていません。
最近、テクノロジーおよびセキュリティ コミュニティの多くが、人工知能テクノロジーの使用に対する理解と適切な規制が欠如していることを理由に警鐘を鳴らしています。 AI ツールの出力の信頼性、IP (知的財産) や機密データの漏洩、プライバシーとセキュリティの侵害に関する懸念がすでに現れています。
Samsung の ChatGPT に関する事件は、テクノロジー大手が誤って人工知能に秘密を漏らしてしまったことで大きく報道されました。 Samsung 社だけではありません。Cyberhaven の調査によると、従業員の 4% が企業の機密データを大規模な言語モデルに入れていることがわかりました。多くの人は、企業データに基づいてモデルをトレーニングすると、AI 企業がそのデータを他の場所で再利用できる可能性があることを知りません。
サイバーセキュリティ インテリジェンス会社 Recorded Future は次のように明らかにしました。「ChatGPT のリリースから数日以内に、欠陥はあるものの強力なマルウェア、ソーシャル ネットワーク上のマルウェアを共有していた多数の脅威アクターをダーク ウェブと特別なアクセス フォーラムで発見しました。エンジニアリング チュートリアル、金儲けスキームなど、すべて ChatGPT を使用することで可能になります。」
プライバシーの観点から言えば、個人が ChatGPT のようなツールにサインアップすると、アクセス権が付与されます。 IP アドレス、ブラウザ設定、今日の検索エンジンのようなブラウジング動作まで。しかし、プライベート・インターネット・アクセスのエンジニアリング・ディレクター、ホセ・ブラヤ氏は、「個人の同意なしに政治的信念や性的指向が暴露される可能性があり、恥ずかしい情報、さらにはキャリアを台無しにする情報が公開される可能性がある」ため、リスクはより高いと述べた。
これらの新しい AI テクノロジーを実装するには、より良い規制と標準が必要であることは明らかです。しかし、データ ガバナンスとデータ管理の重要な役割に関する議論は不足しています。しかし、これは企業による AI の導入と安全な使用において重要な役割を果たします。
#すべてはデータです
データ ガバナンスとトレーニング データの透明性: 中核的な問題は、独自の事前トレーニングされた AI モデルまたは大規模言語モデル (LLM) に関するものです。 LLM を使用した機械学習プログラムには、さまざまなソースからの大規模なデータ セットが含まれています。問題は、LLM がブラック ボックスであり、ソース データに対する透明性がほとんどないことです。これらの情報源に不正なデータが含まれているか、PII (個人を特定できる情報) が含まれているか、信頼できるか、偏っていないか、正確であるか、合法であるかはわかりません。 LLM R&D はソース データを共有しません。
ワシントン ポストは、1,500 万の Web サイトにわたる Google の C4 データセットを分析し、扇動的なデータや PII データ、その他の不審なコンテンツを含む多数の不快なサイトを発見しました。データ ガバナンスが必要です。これには、使用されるデータ ソースの透明性と、それらのソースに含まれる知識の有効性/信頼性が必要です。たとえば、AI ボットが未検証のソースやフェイク ニュース サイトからのデータに基づいてトレーニングされ、会社の新しいポリシーや研究開発の取り組みの一部となっている知識に偏りが生じている可能性があります。
データ分離とデータ ドメイン: 現在、AI ベンダーごとに、提供されたデータの処理方法に関するプライバシー ポリシーが異なります。従業員は、モデルがデータをナレッジ ベースに組み込む可能性があることを知らずに、プロンプトで LLM にデータを提供してしまう可能性があります。企業は、知らず知らずのうちに企業秘密、ソフトウェア コード、個人データを世界に公開する可能性があります。 一部の AI ソリューションでは、API を使用して、事前トレーニングされたモデルからデータを除外することでデータ プライバシーを保護するなどの回避策が提供されていますが、これにより AI の機能的価値も制限されます。なぜなら、理想的なユースケースは、データのプライバシーを維持しながら、事前トレーニングされたモデルをケース固有のデータで拡張することだからです。 1 つの解決策は、事前トレーニングされた AI ツールにデータの「ドメイン」の概念を理解させることです。トレーニング データの「共通」ドメインは事前トレーニングに使用され、共通のアプリケーション間で共有されますが、「独自のデータ」に基づくトレーニング モデルは組織の境界内に安全に制限されます。データ管理により、これらの境界が作成され、維持されることが保証されます。 人工知能の派生: データ管理の 3 番目の領域には、人工知能プロセスによって生成されたデータとその最終的な所有者が関係します。たとえば、AI ボットを使用してコーディングの問題を解決します。何かが間違って実行されてバグやバグが発生した場合、通常は誰が何を行ったかがわかり、調査して修正する必要があります。しかし、AI の場合、AI によって実行されたタスクから生じるエラーや悪い結果の責任を組織が誰に負わせるかを定義することは困難です。機械を責めることはできません。エラーや悪い結果を引き起こしたのはある程度人間です。 さらに複雑な質問は IP です。生成人工知能ツールを使用して作成された作品の IP を所有していますか?法廷でどうやって自分を弁護しますか? Harvard Business Review によると、アート界は特定の AI アプリケーションに対して訴訟を起こし始めています。 初期の頃、私たちは不良データ、プライバシー、セキュリティにおける人工知能の役割を知りませんでした。 、知的財産など 機密データセットのリスクについて知られていないこと。人工知能は、LLM、ビジネス プロセス ロジックに基づく自動化などの複数のアプローチを備えた幅広い分野でもあります。これらは、データ ガバナンス ポリシーとデータ管理実践の組み合わせを通じて検討されるトピックのほんの一部です: リスクを軽減し、結果を検証するための監視戦略、ポリシー、手順が確立されるまで、生成 AI の実験を一時停止してください。 データ管理の基本原則を組み込むには、データがどこに存在するかに関係なく、データをしっかりと理解することから始まります。機密の PII と顧客データはどこにありますか? IP データはどれくらいありますか? これらのファイルはどこにありますか?このような種類のデータが AI ツールに誤って入力されないように使用状況を監視し、セキュリティやプライバシーの侵害を防ぐことはできますか? AI アプリケーションに必要以上のデータを提供したり、機密の独自データを共有したりしないでください。 IP と顧客データをロック/暗号化して共有を防ぎます。 AI ツールがデータ ソースに対して透過的になる方法とその有無を理解します。 #プロバイダーはデータを保護できますか? Google はこの発表をブログで共有しましたが、その「方法」は不明です。「企業が Vertex AI でモデルをトレーニングしているか、Generative AI App Builder でカスタマー サービス エクスペリエンスを構築しているかに関係なく、プライベート データは非公開のままであり、外部で使用されることはありません」より広範なベース モデル トレーニング コーパス。」各 AI ツールの契約文言を読み、AI ツールに提供するデータが機密保持できるかどうかを確認してください。 二次的著作物としてプロジェクトを委託した所有者、個人、または部門をタグ付けするデータ。これは、会社が生み出すあらゆる仕事に最終的に責任を負う可能性があり、AI がどのようにプロセスに統合され、誰が関与しているのかを知りたい場合に役立ちます。 ドメイン間のデータの移植性を確保します。たとえば、チームは、IP および識別機能のデータを取り除き、将来の使用のために共通のトレーニング データセットにフィードしたい場合があります。このプロセスの自動化と追跡は重要です。 策定中の業界規制やガイダンスについて常に最新の情報を入手し、他の組織の同僚と話し合って、リスク軽減やデータ管理にどのように取り組んでいるかを理解してください。 生成 AI プロジェクトを開始する前に、法律の専門家に相談して、データ侵害、プライバシーと IP の侵害、悪意のある行為者、または虚偽/誤った結果が発生した場合のリスクとプロセスを理解してください。 。 人工知能は急速に発展しており、イノベーションを加速し、コストを削減し、ユーザー エクスペリエンスを向上させる可能性を秘めており、大きな可能性を秘めています。前例のない率。ただし、ほとんどの強力なツールと同様に、AI は適切なデータ ガバナンスとデータ管理のガードレールを備えた適切な状況で慎重に使用する必要があります。人工知能のデータ管理に関する明確な標準はまだ確立されておらず、これはさらなる調査が必要な分野です。同時に、企業は AI アプリケーションを使用する前に注意を払い、データ漏洩、データ侵害、および潜在的なデータ セキュリティ リスクについて明確に理解していることを確認する必要があります。 データ管理戦略を検討しましょう
企業における人工知能への実践的なアプローチ
以上がデータ管理は生成人工知能の健全な発展の鍵ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。