ホームページ >テクノロジー周辺機器 >AI >データ管理が生成型 AI に与える影響

データ管理が生成型 AI に与える影響

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-06-07 11:15:36958ブラウズ

2023 年は、誰もが話題にしているテクノロジー、ChatGPT によって推進される AI 時代の主流の始まりとして記憶される年となるでしょう。

ChatGPT のような生成 AI 言語モデルは、私たちの想像力をかき立てています。なぜなら、AI が本物の人間のように私たちに話しかけ、エッセイ、詩、その他の新しいコンテンツを生成するのを初めて見ることができるからです。クリエイティブを見つけてください。生成型 AI ソリューションには、イノベーションの速度、生産性、価値提供の効率を向上させる画期的な可能性がある可能性があります。制限があるにもかかわらず、データプライバシーと管理のベストプラクティスに対する認識には改善の余地がたくさんあります。

最近、テクノロジーとセキュリティの分野の多くの人が、人工知能テクノロジーの使用に関する理解と適切な規制のガードレールが欠如していることに警鐘を鳴らしています。 AI ツールの出力の信頼性、知的財産権、機密データの漏洩、プライバシーとセキュリティの問題の侵害について懸念が表明されています。

Samsung の ChatGPT に関する事件は、テクノロジー大手が誤って ChatGPT に秘密を漏洩したため、大きく報道されました。これを行っているのは Samsung だけではありません。Cyberhaven の調査では、従業員の 4% が会社の機密データを大規模な言語モデルに入力していたことが判明しました。多くの人は、企業データを使用してモデルをトレーニングする場合、AI 企業がそのデータを別の機会に再利用する可能性があることに気づいていません。

サイバー犯罪のネタはもう必要ないかのように、サイバーセキュリティインテリジェンス会社 RecordedFuture は次のように明らかにしました。「ChatGPT のリリースから数日以内に、欠陥はあるものの完全に機能するマルウェアを共有する多くの攻撃者を発見しました。ソーシャルエンジニアリングのチュートリアル、金儲けのスキームなど - すべて ChatGPT を使用することで実現できます。」

プライベートプライバシーの面では、ユーザーが ChatGPT のようなツールを使用してサインアップすると、次の情報にアクセスできます。 IP アドレス、ブラウザ設定、ブラウジングアクティビティは、今日の検索エンジンと同じだとインターネットアクセスエンジニアリング担当ディレクターのホセブライア氏は言います。しかし、本人の同意なしに政治的信念や性的指向を明らかにする可能性があり、恥ずかしい情報、さらにはキャリアを台無しにする情報が公開される可能性があるため、リスクはより高くなります。

これらの新しい AI テクノロジーを実装するには、より良い規制と標準が必要であることは明らかです。しかし、企業による人工知能の導入と安全な使用において重要な役割を果たす可能性があるデータガバナンスとデータ管理の重要な役割については議論が不足しています。

すべてはデータです

注目すべき 3 つの領域は次のとおりです:

独自の事前トレーニングについてAI モデルまたは大規模言語モデル (LLM)、データガバナンスと透明性の中心的な問題はトレーニングデータにあります。 llm を使用した機械学習プログラムには、多くのソースからの大規模なデータセットが含まれています。問題は、LLM がブラックボックスであり、ソースデータに対する透明性がほとんどないことです。私たちは情報源の信頼性について公平かつ公平に判断しますが、違法な個人を特定できる情報や詐欺的なデータを含めることは避けます。たとえば、オープン AI はソースデータを共有しません。ワシントン・ポスト紙は、1500万のWebサイトを対象とするGoogleのC4データセットを分析したところ、扇動的な情報データや個人を特定できる情報データ、その他の疑わしいコンテンツを含む数十の不快なサイトを発見した。データガバナンスには、データソースの透明性が必要であり、これらのデータソースから得られる知識の有効性と信頼性が保証されます。たとえば、AI ボットが未検証のソースやフェイクニュースサイトからのデータに基づいてトレーニングされ、その知識が企業の新しいポリシーや研究開発プログラムの一部となっている可能性があります。

現在、さまざまな人工知能ベンダーが、データ分離やデータドメインなど、ユーザーデータのプライバシーを処理するためのさまざまな戦略を持っています。従業員は無意識のうちに LLM にデータを提供する可能性がありますが、このデータがモデルのナレッジベースに組み込まれることを認識していない可能性があります。企業が意図せずに企業秘密、ソフトウェアコード、個人データを一般に漏洩する可能性があります。一部の AI ソリューションは、事前トレーニングされたモデルからデータを除外することでデータプライバシーを保護する API などの回避策を提供していますが、データのプライバシーを保ちながら事前トレーニングされたモデルをケース固有のデータで強化することが理想的なユースケースであるため、これでは価値が制限されます。事前トレーニングされた AI ツールにデータの「ドメイン」の概念を理解させることが、この問題に対する 1 つの解決策です。トレーニングデータの「共通」フィールドは事前トレーニングに使用され、エンティティ間で共有されますが、「独自データ」に基づくトレーニングモデルの拡張は組織の境界内に安全に制限されます。データ管理により、これらの境界が作成され、維持されることが保証されます。

AI による二次的著作物は、AI プロセスと最終的にはデータ所有者に関連するデータ管理の 3 番目の領域をカバーします。 AI ボットを使用してコーディングの問題を解決するとします。通常、何かが正しく処理されないとバグやエラーが発生するため、誰が調査して修正する責任があるのかを知っています。しかし、AI の場合、たとえプロセスやソースデータについて透明性がなかったとしても、AI に実行を依頼したタスクから生じるエラーや悪影響については、私の組織が責任を負います。機械を責めることはできません。どこかで間違いや悪い結果を犯したのは人間です。 IP についてはどうですか? 生成 AI ツールを使用して作成された作品の IP を所有していますか? 法廷でどのように弁護しますか? Harvard Business Review によると、アート界はすでに訴訟を起こし始めています。

今検討すべきデータ管理戦略

これらの初期段階では、不良データ、プライバシー、セキュリティなど、AI について何がわからないのかわかりません。、知識財産権およびその他の機密データセットに対するリスク。人工知能は、LLM、ロジックベースの自動化などの複数のアプローチを備えた幅広い分野でもあります。これらは、データガバナンスポリシーとデータ管理の実践を組み合わせて検討されるトピックのほんの一部です:

、リスクを軽減して結果を検証するための手順が確立されるまで、生成 AI の実験を一時停止してください。

AI アプリケーションに不要なデータを提供することを避け、機密の独自データを共有しないでください。 IP と顧客データをロック/暗号化して共有を防ぎます。

ベンダーはデータを保護できますか? Google はこの声明をブログで共有しましたが、その「方法」は不明です。 GenerativeAIAppBuilder で顧客サービスエクスペリエンスを構築する場合、プライベートデータは機密に保たれ、より広範なベースモデルトレーニングコーパスでは使用されません。各 AI ツールの契約条件を注意深く確認して、データの機密性が保たれるかどうかを理解してください。

データを所有者、またはプロジェクトを委託した個人や部門の二次的著作物としてマークします。これは、会社によって作成された作品に対して最終的に責任を負う可能性があるため役立ちます。AI がどのように機能するかを知りたい場合

#企業における人工知能への実践的なアプローチ

人工知能は前例のない速度で発展しており、革新、コスト削減、ユーザーエクスペリエンスの向上に大きな可能性を秘めています。最も強力な Like ツールと同様に、人工知能も適切な環境で慎重に適用され、適切なデータが備えられている必要がありますセキュリティを確保するためのガバナンスおよびデータ管理措置人工知能データ管理の分野では、明確な基準がなく、継続的な研究が必要です人工知能を使用する場合、企業は適用する前に注意を払い、データ漏洩やデータ侵害について十分に理解していることを確認する必要がありますおよび潜在的なデータセキュリティリスク。

以上がデータ管理が生成型 AI に与える影響の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

数据类型委托事件人工智能 chatgpt 网络安全搜索引擎 bug 自动化

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：生成 AI が小売業をどのように再構築するか次の記事：生成 AI が小売業をどのように再構築するか

続きを見る