ホームページ > 記事 > テクノロジー周辺機器 > 大規模な言語モデルで避けるべき 6 つの落とし穴
セキュリティやプライバシーの懸念から、誤った情報や偏見に至るまで、大規模な言語モデルはリスクと利益をもたらします。
最近、人工知能 (AI) は驚くべき進歩を遂げていますが、これは主に大規模な言語モデルの開発の進歩によるものです。これらは、ChatGPT、Bard、GitHub の Copilot などのテキストおよびコード生成ツールの中核です。
これらのモデルはすべての部門で採用されています。しかし、それらがどのように作成され、使用されるか、またどのように悪用される可能性があるかは依然として懸念の源です。一部の国では、適切な規制が整備されるまで、抜本的なアプローチを採用し、特定の大規模言語モデルを一時的に禁止することを決定しました。
ここでは、大規模な言語モデルに基づくツールによる実際の悪影響と、その影響を軽減するための戦略をいくつか紹介します。
大規模な言語モデルは、さまざまな方法で生産性を向上させることができます。人々のリクエストを解釈し、かなり複雑な問題を解決する能力があるため、人々は日常的で時間のかかるタスクをお気に入りのチャットボットに任せて、結果を確認するだけで済みます。
もちろん、大きな力には大きな責任が伴います。大規模な言語モデルは有用なマテリアルを作成し、ソフトウェア開発を高速化できますが、有害な情報に迅速にアクセスし、悪意のある者のワークフローを高速化し、さらにはフィッシングメールやマルウェアなどの悪意のあるコンテンツを生成する可能性もあります。参入障壁が、適切に構成されたチャットボット プロンプトを作成するのと同じくらい低い場合、「スクリプト キディ」という用語はまったく新しい意味を持ちます。
客観的に危険なコンテンツへのアクセスを制限する方法はありますが、必ずしも実現可能または効果的であるとは限りません。チャットボットなどのホスト型サービスと同様、コンテンツ フィルタリングは少なくとも経験の浅いユーザーの処理速度を低下させるのに役立ちます。強力なコンテンツ フィルターの実装は必要ですが、万能ではありません。
特別に作成されたヒントにより、大規模な言語モデルがコンテンツ フィルターを無視し、不正な出力が生成される可能性があります。この問題はすべての llms に共通ですが、これらのモデルが外部の世界に接続されると (たとえば、ChatGPT のプラグインとして) 増幅されます。これにより、チャットボットがユーザー生成コードを「評価」し、任意のコードが実行される可能性があります。セキュリティの観点から見ると、チャットボットにこの機能を装備することは非常に問題があります。
この状況を軽減するには、LLM ベースのソリューションが何を行うのか、また外部エンドポイントとどのように対話するのかを理解することが重要です。 API に接続しているか、ソーシャル メディア アカウントを実行しているか、監視なしで顧客とやり取りしているかを判断し、それに応じてスレッド モデルを評価します。
ヒントインジェクションは以前は重要ではないと思われたかもしれませんが、現在では、これらの攻撃は生成されたコードの実行、外部 API への統合、さらにはブラウザー タブの読み取りを開始するため、非常に深刻な結果をもたらす可能性があります。
大規模な言語モデルのトレーニングには大量のデータが必要で、一部のモデルには 5,000 億を超えるパラメーターがあります。この規模では、出所、著作者、著作権のステータスを理解することは、不可能ではないにしても、困難な作業です。トレーニング セットがチェックされていないと、モデルが個人データを漏洩したり、引用元を偽ったり、著作権で保護されたコンテンツを盗用したりする可能性があります。
大規模な言語モデルの使用に関するデータ プライバシー法も非常に曖昧です。ソーシャルメディアで学んだように、何かが無料であれば、ユーザーが製品である可能性が高くなります。人々がチャットボットにコードのバグを見つけたり、機密文書を書いたりするよう依頼した場合、そのデータは最終的にモデルのトレーニング、広告、または競争上の優位性のために使用される可能性がある第三者に送信されることになることを覚えておく価値があります。 AI によるデータ侵害は、ビジネス現場で特に被害をもたらす可能性があります。
大規模な言語モデルに基づくサービスは、Slack や Teams などの職場の生産性向上ツールと統合されているため、プロバイダーのプライバシー ポリシーをよく読み、AI プロンプトがどのように使用されているかを理解し、それに応じて大規模な言語モデルを規制してください。職場で使用する場合、これは重要です。著作権保護に関しては、今日のオープンでほぼ無料のインターネットを妨げることなく、オプトインや特別な許可を通じてデータのアクセスと使用を規制する必要があります。
大規模な言語モデルは説得力があるように賢いふりをすることができますが、実際に生成されるものを「理解」しているわけではありません。代わりに、それらの通貨は単語間の確率的な関係です。彼らは事実とフィクションを区別することができません。一部の出力は完全に信憑性があるように見えますが、実際には真実ではない自信に満ちた表現であることが判明します。この例としては、ある Twitter ユーザーが最近直接発見したように、ChatGPT の引用や論文全体の改ざんが挙げられます。
大規模な言語モデル ツールは、さまざまなタスクで非常に役立つことがわかりますが、応答の精度、利点、全体的な妥当性の検証には人間が関与する必要があります。
LLM ツールの出力は、常に割り引いて考える必要があります。これらのツールは幅広いタスクに役立ちますが、応答の精度、利点、全体的な妥当性を検証するには人間が関与する必要があります。そうでなければ、私たちはがっかりするでしょう。
オンラインでチャットする場合、人間と話しているのか機械と話しているのかを見分けることがますます難しくなり、一部のエンティティはこれを利用しようとする可能性があります。たとえば、今年初め、あるメンタルヘルス技術企業は、オンライン カウンセリングを求める一部のユーザーが、知らず知らずのうちに人間のボランティアではなく GPT3 ベースのボットとやり取りしていたことを認めました。これは、メンタルヘルスケアや人間の感情の解釈に依存するその他の環境における大規模な言語モデルの使用に対する倫理的懸念を引き起こします。
現在、エンドユーザーの明示的な同意なしに企業がこの方法で AI を活用できないようにする規制上の監督はほとんどありません。さらに、敵は説得力のある AI ボットを利用して、スパイ活動、詐欺、その他の違法行為を実行する可能性があります。
人工知能には感情がありませんが、その反応は人々の感情を傷つけ、さらに悲劇的な結果を招く可能性があります。 AI ソリューションが人間の感情的なニーズを完全に解釈し、責任を持って安全に対応できると考えるのは無責任です。
医療やその他の機密性の高いアプリケーションでの大規模な言語モデルの使用は、ユーザーに損害を与えるリスクを防ぐために厳しく規制される必要があります。 LLM ベースのサービス プロバイダーは、サービスに対する AI の貢献範囲を常にユーザーに通知する必要があり、ボットとの対話はデフォルトではなく常にオプションである必要があります。
AI ソリューションの良さは、トレーニングに使用されたデータによって決まります。このデータには、政党、人種、性別、その他の人口統計に対する偏見が反映されていることがよくあります。モデルが不公平な決定を下す場合、バイアスは影響を受けるグループに悪影響を与える可能性があり、微妙で対処が難しい可能性があります。無検閲のインターネット データでトレーニングされたモデルには常に人間のバイアスが反映され、ユーザーの対話から継続的に学習するモデルも意図的な操作の影響を受けやすくなります。
差別のリスクを軽減するために、大規模な言語モデル サービス プロバイダーは、トレーニング データ セットを慎重に評価して、マイナスの結果につながる可能性のある不均衡を回避する必要があります。機械学習モデルも定期的にチェックして、予測が公平かつ正確であることを確認する必要があります。
大規模な言語モデルは、ソフトウェアと対話する方法を完全に再定義し、ワークフローに数え切れないほどの改善をもたらします。しかし、現在、人工知能に関する有意義な規制が欠如しており、機械学習モデルのセキュリティが欠如しているため、大規模な言語モデルの広範かつ性急な実装は大きな挫折を経験する可能性があります。したがって、この貴重な技術は迅速に規制され、保護される必要があります。 ?
以上が大規模な言語モデルで避けるべき 6 つの落とし穴の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。