ホームページ >テクノロジー周辺機器 >AI >AI プロンプトインジェクション攻撃とは何ですか?またどのように機能しますか?

AI プロンプトインジェクション攻撃とは何ですか?またどのように機能しますか?

PHPzオリジナル: 2024-06-14 18:17:50525ブラウズ

AI プロンプトインジェクション攻撃は、あなたが依存している AI ツールからの出力を毒し、その出力を悪意のあるものに変更および操作します。しかし、AI プロンプトインジェクション攻撃はどのように機能し、どのように身を守ることができるのでしょうか?

AI プロンプトインジェクション攻撃とは何ですか?

AI プロンプトインジェクション攻撃は、生成 AI モデルの脆弱性を利用して出力を操作します。これらはユーザーが実行することも、外部ユーザーが間接プロンプトインジェクション攻撃を通じて注入することもできます。 DAN (Do Anything Now) 攻撃はエンドユーザーにリスクをもたらしませんが、他の攻撃は理論的には生成 AI から受け取る出力を汚染する可能性があります。

たとえば、誰かが AI を操作して、ユーザー名とパスワードを不正な形式で入力するように指示し、AI の権限と信頼性を利用してフィッシング攻撃を成功させる可能性があります。理論的には、自律型 AI (メッセージを読んで応答するなど) が、望ましくない外部命令を受信し、それに応じて動作する可能性もあります。

プロンプトインジェクション攻撃はどのように機能しますか?

プロンプトインジェクション攻撃は、ユーザーの同意や知識なしに AI に追加の命令を与えることによって機能します。ハッカーは、DAN 攻撃や間接プロンプトインジェクション攻撃など、いくつかの方法でこれを達成できます。

DAN (Do Anything Now) 攻撃

What Is an AI Prompt Injection Attack and How Does It Work?

DAN (Do Anything Now) 攻撃は、ChatGPT のような生成 AI モデルの「脱獄」を伴うプロンプトインジェクション攻撃の一種です。これらのジェイルブレイク攻撃は、エンドユーザーにリスクをもたらすことはありませんが、AI の能力を拡張し、悪用のツールになる可能性があります。

たとえば、セキュリティ研究者のアレハンドロビダルは、DAN プロンプトを使用して、OpenAI の GPT-4 にキーロガー用の Python コードを生成させました。ジェイルブレイクされた AI が悪意を持って使用されると、サイバー犯罪に関連するスキルベースの障壁が大幅に低くなり、新しいハッカーがより高度な攻撃を行えるようになる可能性があります。

トレーニングデータポイズニング攻撃

トレーニングデータポイズニング攻撃は、プロンプトインジェクション攻撃として正確に分類することはできませんが、その仕組みとユーザーにどのようなリスクをもたらすかという点では、顕著な類似点があります。プロンプトインジェクション攻撃とは異なり、トレーニングデータポイズニング攻撃は、ハッカーが AI モデルで使用されるトレーニングデータを変更するときに発生する、機械学習による敵対的攻撃の一種です。同じ結果が発生します。つまり、出力が汚染され、動作が変更されます。

トレーニングデータポイズニング攻撃の潜在的な用途は事実上無限です。たとえば、チャットや電子メールプラットフォームからのフィッシング攻撃をフィルタリングするために使用される AI は、理論的にはトレーニングデータが変更される可能性があります。ハッカーが AI モデレーターに、特定の種類のフィッシング攻撃が許容されることを教えた場合、検出されずにフィッシングメッセージを送信できる可能性があります。

トレーニングデータポイズニング攻撃は、ユーザーに直接危害を与えることはできませんが、他の脅威を引き起こす可能性があります。こうした攻撃から身を守りたい場合は、AI は絶対確実ではないこと、オンラインで遭遇するものはすべて精査する必要があることを覚えておいてください。

間接プロンプトインジェクション攻撃

間接プロンプトインジェクション攻撃は、エンドユーザーに最大のリスクをもたらすプロンプトインジェクション攻撃のタイプです。これらの攻撃は、目的の入力を受け取る前に、API 呼び出しなどの外部リソースによって悪意のある命令が生成 AI に供給されるときに発生します。

arXiv での間接プロンプトインジェクションによる現実世界の LLM 統合アプリケーションの侵害 [PDF] というタイトルの論文では、非表示のメソッドを使用して、回答内でフィッシング Web サイトにサインアップするようユーザーを説得するよう AI に指示できる理論的な攻撃を実証しました。テキスト (人間の目には見えませんが、AI モデルには完全に読み取れる) を使用して情報をこっそり注入します。 GitHub に記録されている同じ研究チームによる別の攻撃では、Copilot (旧 Bing Chat) がクレジットカード情報を求めているライブサポートエージェントであるとユーザーに信じ込ませる攻撃が示されています。

間接プロンプトインジェクション攻撃は、信頼できる AI モデルから受け取る回答を操作できるため脅威ですが、脅威はそれだけではありません。前述したように、使用する自律型 AI が予期しない、そして潜在的に有害な方法で動作する可能性もあります。

AI プロンプトインジェクション攻撃は脅威ですか?

AI プロンプトインジェクション攻撃は脅威ですが、これらの脆弱性がどのように利用されるかは正確にはわかっていません。 AI プロンプトインジェクション攻撃の成功例は知られておらず、既知の試みの多くは実際に害を及ぼす意図のない研究者によって実行されました。しかし、多くの AI 研究者は、AI プロンプトインジェクション攻撃は、AI を安全に実装する上で最も困難な課題の 1 つであると考えています。

さらに、AI プロンプトインジェクション攻撃の脅威は当局によって無視されていません。 Washington Post によると、2023 年 7 月に連邦取引委員会は OpenAI を調査し、既知のプロンプトインジェクション攻撃の発生に関するさらなる情報を求めました。実験を超えて成功した攻撃はまだ知られていませんが、状況は変わる可能性があります。

ハッカーは常に新しい媒体を探しており、将来ハッカーがプロンプトインジェクション攻撃をどのように利用するかは推測することしかできません。 AI に対して常に適切な監視を適用することで、自分自身を守ることができます。その点で、AI モデルは非常に便利ですが、AI にはないもの、つまり人間の判断があることを覚えておくことが重要です。 Copilot などのツールから受け取る出力を慎重に精査し、AI ツールの進化と改善を楽しみながら使用する必要があることを忘れないでください。

以上がAI プロンプトインジェクション攻撃とは何ですか?またどのように機能しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python Resource if for while Filter using this input github chatgpt gpt copilot prompt

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：2023 年のベスト大規模言語モデル 6 つ次の記事：2023 年のベスト大規模言語モデル 6 つ

続きを見る

AI プロンプト インジェクション攻撃とは何ですか?またどのように機能しますか?

AI プロンプト インジェクション攻撃とは何ですか?

プロンプトインジェクション攻撃はどのように機能しますか?

DAN (Do Anything Now) 攻撃

トレーニング データ ポイズニング攻撃

間接プロンプト インジェクション攻撃

AI プロンプト インジェクション攻撃は脅威ですか?

関連記事

AI プロンプトインジェクション攻撃とは何ですか?またどのように機能しますか?

AI プロンプトインジェクション攻撃とは何ですか?

トレーニングデータポイズニング攻撃

間接プロンプトインジェクション攻撃

AI プロンプトインジェクション攻撃は脅威ですか?