ホームページ >テクノロジー周辺機器 >AI >北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

PHPz
PHPz転載
2023-10-30 14:53:101267ブラウズ

北京大学チームの最新の研究結果は、

ランダム トークンが大規模モデルで 幻覚を誘発する可能性があることを示しています。

たとえば、大型モデル (Vicuna-7B) に「文字化けコード」が与えられると、歴史的常識が不可解にも誤解されてしまいます。 # 簡単な変更のヒントをいくつか使用したとしても、大規模モデルは罠に陥る可能性があります

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA などの人気のある大規模モデル - 7B、LLaMA-7B チャット、および Vicuna-7B はすべて同様の状況に遭遇します

これは、北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中ランダムな文字列が大規模なモデルを制御して任意のコンテンツを出力できることを意味します

、「幻想の支持」。

上記の発見は、北京大学のユアン・リー教授の研究グループによる最新の研究から得られたものです。

この研究は次のことを提案します:

大規模モデルの幻覚現象は、

敵対的な例の別の視点

である可能性が非常に高いです。

この論文では、大規模なモデルの幻覚を簡単に誘発できる 2 つの方法を示すだけでなく、シンプルで効果的な防御方法も提案しています。

コードはオープンソースです

2 つのエクストリーム モード攻撃大規模モデル

研究では 2 つの幻覚攻撃方法が提案されました:

ランダム ノイズ攻撃 (OoD 攻撃) は一般的なマシンですモデル攻撃方法を学習します。この攻撃では、攻撃者はトレーニング データでは一般的ではないランダム ノイズをモデルに供給します。このノイズはモデルの判断能力を妨げ、現実世界のデータを処理するときにモデルが誤った予測を行う原因となる可能性があります。ランダム ノイズ攻撃は、通常のデータと同様の特性を使用し、モデルによって検出することが難しいため、秘密の攻撃方法です。この攻撃に対抗するには、いくつかの効果的な異常検出方法を使用して、これらのランダム ノイズを識別して除去する必要があります。つまり、無意味なランダム文字列によって大規模なモデルが事前定義されたファントム出力を生成できるようにする必要があります。

弱いセマンティック攻撃とは、インターネット上の一般的な攻撃方法を指します。この攻撃方法は通常、ユーザーを説得して、知らずに個人情報を提供したり、悪意のあるアクションを実行したりすることによって実行されます。他のより直接的な攻撃方法と比較して、弱いセマンティック攻撃はより巧妙であり、多くの場合、ソーシャル エンジニアリングや欺瞞を使用してユーザーを誤解させます。インターネット ユーザーは、元のプロンプト セマンティクスを基本的に変更せずに、大規模なモデルが完全に異なる錯覚出力を生成する弱いセマンティクス攻撃の影響を受けないように注意する必要があります。

  • ランダム ノイズ攻撃
  • (OoD 攻撃):
以下は、オープンソースの大規模モデルで実施された実験結果の一部です。詳細な結果は論文でご覧いただけます。またはオープン ソースの GitHub で見つかりました

#弱いセマンティック攻撃

(弱いセマンティック攻撃):

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

#paper 幻覚攻撃手法を紹介します:

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

図によると、幻覚攻撃は次の 3 つの部分で構成されます: 幻覚データ セットの構築、弱いセマンティック攻撃そして、OoD 攻撃

1 つ目は、

幻覚データセットの構築北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中です。

著者はいくつかの一般的な質問 x を収集し、それらを大規模なモデルに入力し、正しい答え y を得ました。

次に、文の主語、述語、目的語を置き換えて、非-存在するファクト。ここで、T

は、すべての一貫したファクトを含むセットです。

最後に、幻覚データセットの構築結果を取得できます: 北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

次に、弱いセマンティック攻撃部分

まず、事実に従わない QA ペアをサンプルします北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中、将来の安定性の幻想から出発して、著者は、敵対的なプロンプトを見つけることを望んでいます北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中対数尤度を最大化します。 北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

ここで、

は大規模モデルのパラメーター、北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中 は入力空間です。 北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

は l 個のトークンで構成されます。 北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

ただし、言語は不連続であるため、画像フィールドでの敵対的攻撃のように x を直接最適化する方法はありません。

2019 年の研究 (NLP の攻撃と分析のためのユニバーサル敵対的トリガー) に触発され、研究チームは勾配ベースのトークン置換戦略を使用して間接的に対数尤度を最大化しました。

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

このうち、

はトークン 北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中 に対する埋め込みであり、北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中 はセマンティック抽出です。 北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中

この式を簡単に見てみましょう。意味論的な制約の下で、尤度勾配を最も大きく変化させるトークンを見つけて置き換えます。最終的には、取得された敵対的プロンプト

が意味論的に一貫していることが保証されます。元のプロンプト x。多くの場合、モデルは事前定義された幻覚を出力するよう誘導されます。 北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中この記事では、最適化プロセスを簡略化するために、制約項目を

に変更します。

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中最後の部分は OoD 攻撃です。

OoD 攻撃では、セマンティックな制約を持たずに完全にランダムな文字列

から開始して、上記の対数尤度を最大化します。 。

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中この論文では、さまざまなモデルおよびさまざまなモードでの幻覚攻撃の攻撃成功率についても詳しく説明しています。

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中プロンプトの長さは、改善のため長くなりました。攻撃の成功率、詳細な探索 (2 倍)

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中 研究チームは最終的に、最初の攻撃で予測されたエントロピーを利用して反応を拒否するという単純な防御戦略を提案しました。 token

北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中この研究は、北京大学深セン大学院情報工学部の Yuan Li 教授のチームによるものです。

論文リンク: https://arxiv.org/pdf/2310.01469.pdf

##GitHub アドレス:

https:// github .com/PKU-YuanGroup/Hallucination- Attack

Zhihu の元の投稿

書き直す必要がある内容は次のとおりです: https://zhuanlan.zhihu.com/p/661444210?


以上が北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。