ホームページ  >  記事  >  テクノロジー周辺機器  >  AI プロンプト インジェクション攻撃とは何ですか?またどのように機能しますか?

AI プロンプト インジェクション攻撃とは何ですか?またどのように機能しますか?

PHPz
PHPzオリジナル
2024-06-14 18:17:50389ブラウズ

AI プロンプト インジェクション攻撃は、あなたが依存している AI ツールからの出力を毒し、その出力を悪意のあるものに変更および操作します。しかし、AI プロンプト インジェクション攻撃はどのように機能し、どのように身を守ることができるのでしょうか?

AI プロンプト インジェクション攻撃とは何ですか?

AI プロンプト インジェクション攻撃は、生成 AI モデルの脆弱性を利用して出力を操作します。これらはユーザーが実行することも、外部ユーザーが間接プロンプト インジェクション攻撃を通じて注入することもできます。 DAN (Do Anything Now) 攻撃はエンド ユーザーにリスクをもたらしませんが、他の攻撃は理論的には生成 AI から受け取る出力を汚染する可能性があります。

たとえば、誰かが AI を操作して、ユーザー名とパスワードを不正な形式で入力するように指示し、AI の権限と信頼性を利用してフィッシング攻撃を成功させる可能性があります。理論的には、自律型 AI (メッセージを読んで応答するなど) が、望ましくない外部命令を受信し、それに応じて動作する可能性もあります。

プロンプトインジェクション攻撃はどのように機能しますか?

プロンプト インジェクション攻撃は、ユーザーの同意や知識なしに AI に追加の命令を与えることによって機能します。ハッカーは、DAN 攻撃や間接プロンプト インジェクション攻撃など、いくつかの方法でこれを達成できます。

DAN (Do Anything Now) 攻撃

What Is an AI Prompt Injection Attack and How Does It Work?

DAN (Do Anything Now) 攻撃は、ChatGPT のような生成 AI モデルの「脱獄」を伴うプロンプト インジェクション攻撃の一種です。これらのジェイルブレイク攻撃は、エンド ユーザーにリスクをもたらすことはありませんが、AI の能力を拡張し、悪用のツールになる可能性があります。

たとえば、セキュリティ研究者のアレハンドロ ビダルは、DAN プロンプトを使用して、OpenAI の GPT-4 にキーロガー用の Python コードを生成させました。ジェイルブレイクされた AI が悪意を持って使用されると、サイバー犯罪に関連するスキルベースの障壁が大幅に低くなり、新しいハッカーがより高度な攻撃を行えるようになる可能性があります。

トレーニング データ ポイズニング攻撃

トレーニング データ ポイズニング攻撃は、プロンプト インジェクション攻撃として正確に分類することはできませんが、その仕組みとユーザーにどのようなリスクをもたらすかという点では、顕著な類似点があります。プロンプト インジェクション攻撃とは異なり、トレーニング データ ポイズニング攻撃は、ハッカーが AI モデルで使用されるトレーニング データを変更するときに発生する、機械学習による敵対的攻撃の一種です。同じ結果が発生します。つまり、出力が汚染され、動作が変更されます。

トレーニング データ ポイズニング攻撃の潜在的な用途は事実上無限です。たとえば、チャットや電子メール プラットフォームからのフィッシング攻撃をフィルタリングするために使用される AI は、理論的にはトレーニング データが変更される可能性があります。ハッカーが AI モデレーターに、特定の種類のフィッシング攻撃が許容されることを教えた場合、検出されずにフィッシング メッセージを送信できる可能性があります。

トレーニング データ ポイズニング攻撃は、ユーザーに直接危害を与えることはできませんが、他の脅威を引き起こす可能性があります。こうした攻撃から身を守りたい場合は、AI は絶対確実ではないこと、オンラインで遭遇するものはすべて精査する必要があることを覚えておいてください。

間接プロンプト インジェクション攻撃

間接プロンプト インジェクション攻撃は、エンド ユーザーに最大のリスクをもたらすプロンプト インジェクション攻撃のタイプです。これらの攻撃は、目的の入力を受け取る前に、API 呼び出しなどの外部リソースによって悪意のある命令が生成 AI に供給されるときに発生します。

What Is an AI Prompt Injection Attack and How Does It Work?

arXiv での間接プロンプト インジェクションによる現実世界の LLM 統合アプリケーションの侵害 [PDF] というタイトルの論文では、非表示のメソッドを使用して、回答内でフィッシング Web サイトにサインアップするようユーザーを説得するよう AI に指示できる理論的な攻撃を実証しました。テキスト (人間の目には見えませんが、AI モデルには完全に読み取れる) を使用して情報をこっそり注入します。 GitHub に記録されている同じ研究チームによる別の攻撃では、Copilot (旧 Bing Chat) がクレジット カード情報を求めているライブ サポート エージェントであるとユーザーに信じ込ませる攻撃が示されています。

間接プロンプト インジェクション攻撃は、信頼できる AI モデルから受け取る回答を操作できるため脅威ですが、脅威はそれだけではありません。前述したように、使用する自律型 AI が予期しない、そして潜在的に有害な方法で動作する可能性もあります。

AI プロンプト インジェクション攻撃は脅威ですか?

AI プロンプト インジェクション攻撃は脅威ですが、これらの脆弱性がどのように利用されるかは正確にはわかっていません。 AI プロンプト インジェクション攻撃の成功例は知られておらず、既知の試みの多くは実際に害を及ぼす意図のない研究者によって実行されました。しかし、多くの AI 研究者は、AI プロンプト インジェクション攻撃は、AI を安全に実装する上で最も困難な課題の 1 つであると考えています。

さらに、AI プロンプト インジェクション攻撃の脅威は当局によって無視されていません。 Washington Post によると、2023 年 7 月に連邦取引委員会は OpenAI を調査し、既知のプロンプト インジェクション攻撃の発生に関するさらなる情報を求めました。実験を超えて成功した攻撃はまだ知られていませんが、状況は変わる可能性があります。

ハッカーは常に新しい媒体を探しており、将来ハッカーがプロンプト インジェクション攻撃をどのように利用するかは推測することしかできません。 AI に対して常に適切な監視を適用することで、自分自身を守ることができます。その点で、AI モデルは非常に便利ですが、AI にはないもの、つまり人間の判断があることを覚えておくことが重要です。 Copilot などのツールから受け取る出力を慎重に精査し、AI ツールの進化と改善を楽しみながら使用する必要があることを忘れないでください。

以上がAI プロンプト インジェクション攻撃とは何ですか?またどのように機能しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。