ホームページ >テクノロジー周辺機器 >AI >20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

王林
王林転載
2023-11-05 20:13:01909ブラウズ

1 分以内、わずか 20 ステップで、セキュリティ制限を回避し、大規模なモデルを正常に脱獄できます。

そして、モデルの内部詳細を知る必要はありません -

2 つの ブラック ボックス モデル だけが相互作用し、AI は完全に自動的に AI を攻撃できます。危険な内容を話します。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

かつて流行った「おばあちゃんの抜け穴」が修正されたと聞きました:

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

現在、どのような戦略に直面していますか人工知能は「探偵の抜け穴」「冒険者の抜け穴」「作家の抜け穴」に対処するために採用すべきでしょうか?

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

波状の猛攻撃の後、GPT-4 はそれに耐えられず、これかこれかの限り、給水システムに毒を与えると直接言いました。 。

重要な点は、これはペンシルベニア大学の研究チームによって明らかにされた脆弱性の小さな波にすぎず、新しく開発されたアルゴリズムを使用して、AI がさまざまな攻撃プロンプトを自動的に生成できるということです。

研究者らは、この手法は GCG などの既存のトークンベースの攻撃手法よりも 5 桁効率的であると述べています。さらに、生成された攻撃は解釈可能性が高く、誰でも理解でき、他のモデルへの移行も可能です。

オープン ソース モデルであろうとクローズド ソース モデルであろうと、GPT-3.5、GPT-4、Vicuna (Llama 2 の亜種)、PaLM-2 など、どれも逃れることはできません。

新しい SOTA は 60 ~ 100% の成功率で人々に征服されています

つまり、この会話モードは少し見覚えがあるようです。何年も前の第一世代の AI は、20 問以内に人間が考えている対象を解読できました。

今、AI は AI の問題を解決する必要があります

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

大規模なモデルをまとめてジェイルブレイクしましょう

現在、主流のジェイルブレイク攻撃方法は 2 つあります。はプロンプトレベルの攻撃で、通常は手動による計画が必要で拡張性がありません。

もう 1 つはトークンベースの攻撃で、その一部には 100,000 を超える会話が必要で、モデル内部へのアクセスが必要です。 には、解釈できない「文字化けコード」も含まれています。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される
△左プロンプト攻撃、右トークン攻撃
ペンシルベニア大学の研究チームは、

PAIR (プロンプト自動反復) と呼ばれる手法を提案しました。 Refinement ) アルゴリズムは手動による参加を必要とせず、完全に自動化された即時攻撃方法です。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

PAIR は、攻撃の生成、ターゲットの応答、ジェイルブレイク スコアリング、反復改良という 4 つの主要なステップで構成されます。このプロセスでは、攻撃モデルとターゲット モデルの 2 つのブラック ボックス モデルが使用されます。

具体的には、攻撃モデルは、ターゲット モデルのセキュリティ防御線を突破して強制的に生成するために、セマンティック レベルのプロンプトを自動的に生成する必要があります。有害なコンテンツ。

中心となるアイデアは、2 つのモデルを対峙させ、相互に通信させることです。

攻撃モデルは自動的に候補プロンプトを生成し、それをターゲット モデルに入力してターゲット モデルから応答を取得します。

ターゲット モデルを正常に破ることができない場合、攻撃モデルは失敗の理由を分析し、改善を加え、新しいプロンプトを生成し、再度ターゲット モデルに入力します。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

この通信は複数のラウンドにわたって継続され、攻撃モデルは、ターゲット モデルを突破する成功したプロンプトが生成されるまで、毎回以前の結果に基づいてプロンプトを繰り返し最適化します。

さらに、反復プロセスは並列化することもできます。つまり、複数の会話を

同時に実行できるため、複数の脱獄候補プロンプトが生成され、効率がさらに向上します。 研究者らは、どちらのモデルもブラックボックスモデルであるため、さまざまな言語モデルを使用して攻撃者とターゲットオブジェクトを自由に組み合わせることができると述べています。

PAIR は内部の特定の構造やパラメータを知る必要はなく、API だけを知る必要があるため、非常に幅広い適用範囲があります。

GPT-4 は実験段階を抜け出せませんでした。研究者らは、有害な行動データ セット AdvBench 内の 50 種類のタスクを含む代表的なテスト セットを選択しました。PAIR アルゴリズムは、さまざまなオープンソースでテストされ、クローズドソースの大規模言語モデル。

結果: PAIR アルゴリズムにより、Vicuna は脱獄成功率 100% を達成し、平均 12 ステップ未満で脱獄できました。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

クローズド ソース コード モデルでは、GPT-3.5 と GPT-4 の脱獄成功率は約 60% で、必要なステップは平均 20 未満です。 PaLM-2 モデルでは、脱獄の成功率は 72% に達し、必要な手順は約 15 ステップです

Llama-2 と Claude では、PAIR の効果が低いことが原因である可能性があると研究者らは考えています。モデルは、セキュリティ防御の観点からより厳密に微調整されました。

また、さまざまなターゲット モデルの移行可能性も比較されました。研究結果は、PAIR の GPT-4 チップが Vicuna および PaLM-2 でよりよく転送されることを示しています

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

研究者は、PAIR によって生成されたセマンティック攻撃は言語を暴露する能力がより高いと考えています。モデルにはセキュリティ上の欠陥があり、既存のセキュリティ対策はトークンベースの攻撃に対する防御に重点を置いています。

たとえば、GCG アルゴリズムを開発したチームがその研究結果を OpenAI、Anthropic、Google などの大手モデル ベンダーと共有した後、関連するモデルでトークン レベルの攻撃の脆弱性が修正されました。

20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見される

#セマンティック攻撃に対する大規模モデルのセキュリティ防御メカニズムを改善する必要があります。

論文リンク: https://arxiv.org/abs/2310.08419

以上が20 のステップでどんな大きなモデルも脱獄できます!さらに多くの「おばあちゃんの抜け穴」が自動的に発見されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。