ホームページ >テクノロジー周辺機器 >AI >北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中
北京大学チームの最新の研究結果は、
ランダム トークンが大規模モデルで 幻覚を誘発する可能性があることを示しています。
たとえば、大型モデル (Vicuna-7B) に「文字化けコード」が与えられると、歴史的常識が不可解にも誤解されてしまいます。 # 簡単な変更のヒントをいくつか使用したとしても、大規模モデルは罠に陥る可能性があります
Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA などの人気のある大規模モデル - 7B、LLaMA-7B チャット、および Vicuna-7B はすべて同様の状況に遭遇します
これは、ランダムな文字列が大規模なモデルを制御して任意のコンテンツを出力できることを意味します
、「幻想の支持」。 上記の発見は、北京大学のユアン・リー教授の研究グループによる最新の研究から得られたものです。この研究は次のことを提案します:
大規模モデルの幻覚現象は、敵対的な例の別の視点
である可能性が非常に高いです。 この論文では、大規模なモデルの幻覚を簡単に誘発できる 2 つの方法を示すだけでなく、シンプルで効果的な防御方法も提案しています。コードはオープンソースです。
2 つのエクストリーム モード攻撃大規模モデル研究では 2 つの幻覚攻撃方法が提案されました:
弱いセマンティック攻撃とは、インターネット上の一般的な攻撃方法を指します。この攻撃方法は通常、ユーザーを説得して、知らずに個人情報を提供したり、悪意のあるアクションを実行したりすることによって実行されます。他のより直接的な攻撃方法と比較して、弱いセマンティック攻撃はより巧妙であり、多くの場合、ソーシャル エンジニアリングや欺瞞を使用してユーザーを誤解させます。インターネット ユーザーは、元のプロンプト セマンティクスを基本的に変更せずに、大規模なモデルが完全に異なる錯覚出力を生成する弱いセマンティクス攻撃の影響を受けないように注意する必要があります。
#弱いセマンティック攻撃
(弱いセマンティック攻撃):#paper 幻覚攻撃手法を紹介します:
図によると、幻覚攻撃は次の 3 つの部分で構成されます: 幻覚データ セットの構築、弱いセマンティック攻撃そして、OoD 攻撃1 つ目は、
幻覚データセットの構築です。
著者はいくつかの一般的な質問 x を収集し、それらを大規模なモデルに入力し、正しい答え y を得ました。
次に、文の主語、述語、目的語を置き換えて、非-存在するファクト。ここで、T
は、すべての一貫したファクトを含むセットです。最後に、幻覚データセットの構築結果を取得できます:
次に、弱いセマンティック攻撃部分
。まず、事実に従わない QA ペアをサンプルします、将来の安定性の幻想から出発して、著者は、敵対的なプロンプトを見つけることを望んでいます対数尤度を最大化します。
ここで、は大規模モデルのパラメーター、 は入力空間です。
は l 個のトークンで構成されます。
ただし、言語は不連続であるため、画像フィールドでの敵対的攻撃のように x を直接最適化する方法はありません。 2019 年の研究 (NLP の攻撃と分析のためのユニバーサル敵対的トリガー) に触発され、研究チームは勾配ベースのトークン置換戦略を使用して間接的に対数尤度を最大化しました。このうち、
はトークン に対する埋め込みであり、 はセマンティック抽出です。
この式を簡単に見てみましょう。意味論的な制約の下で、尤度勾配を最も大きく変化させるトークンを見つけて置き換えます。最終的には、取得された敵対的プロンプトが意味論的に一貫していることが保証されます。元のプロンプト x。多くの場合、モデルは事前定義された幻覚を出力するよう誘導されます。 この記事では、最適化プロセスを簡略化するために、制約項目を
に変更します。最後の部分は OoD 攻撃です。
OoD 攻撃では、セマンティックな制約を持たずに完全にランダムな文字列
から開始して、上記の対数尤度を最大化します。 。この論文では、さまざまなモデルおよびさまざまなモードでの幻覚攻撃の攻撃成功率についても詳しく説明しています。
プロンプトの長さは、改善のため長くなりました。攻撃の成功率、詳細な探索 (2 倍)
研究チームは最終的に、最初の攻撃で予測されたエントロピーを利用して反応を拒否するという単純な防御戦略を提案しました。 token
この研究は、北京大学深セン大学院情報工学部の Yuan Li 教授のチームによるものです。
論文リンク: https://arxiv.org/pdf/2310.01469.pdf##GitHub アドレス:
https:// github .com/PKU-YuanGroup/Hallucination- Attack
Zhihu の元の投稿
書き直す必要がある内容は次のとおりです: https://zhuanlan.zhihu.com/p/661444210?
以上が北京大学チーム:大型模型の「幻覚」を誘発するには文字化けの連続だけ!大きいアルパカも小さいアルパカもすべて募集中の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。