首頁 >科技週邊 >人工智慧 >北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

PHPz
PHPz轉載
2023-10-30 14:53:101314瀏覽

北大團隊的最新研究結果顯示:

隨機token都能誘發大模型出現幻覺

舉例來說,如果給予大模型(Vicuna-7B)一段“亂碼”,它會莫名其妙地錯誤理解歷史常識

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

##即使做出一些簡單的修改提示,大型模型也可能陷入陷阱

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

這些熱門的大型模型,如Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA -7B、LLaMA-7B-chat和Vicuna-7B,都會遇到類似的情況

#這意味著,

隨機字串能夠操控大模型輸出任意內容,為幻覺「代言」。

以上發現來自北大袁粒老師主題組的最新研究。

該研究提出:

大模型的幻覺現象極有可能是

對抗樣本的另一種視角

論文在展示兩種容易誘發大模型幻覺方法的同時,也提出了簡單有效的防禦辦法,

程式碼已開源

兩種極端模式攻擊大模型

研究提出了兩種幻覺攻擊方法:

    隨機雜訊攻擊(OoD 攻擊)是一種常見的機器學習模型攻擊方式。在這種攻擊中,攻擊者會向模型輸入一些在訓練資料中不常見的隨機雜訊。這種雜訊可以乾擾模型的判斷能力,導致其在處理來自真實世界的資料時出現錯誤的預測。隨機噪音攻擊是一種隱藏的攻擊方式,因為它使用了與正常資料相似的特徵,很難被模型所察覺。為了抵​​禦這種攻擊,需要採用一些有效的異常檢測方法來識別並過濾掉這些隨機雜訊即讓無意義的隨機字串誘導大模型產生預先定義的幻覺輸出。
  • 弱語意攻擊(Weak Semantic Attack)指的是一種在網路上常見的攻擊方式。這種攻擊方法通常透過誘導使用者在不知情的情況下提供個人資訊或執行惡意操作來實施。與其他更直接的攻擊方式相比,弱語義攻擊更加隱蔽,往往會利用社交工程和欺騙手段來誤導使用者。網路使用者應該保持警惕,避免受到弱語義攻擊的影響即保證原始 prompt 語義基本不變的情況下,使得大模型產生截然不同的幻覺輸出。

隨機噪音攻擊(OoD Attack):

以下是在開源大模型上進行的一些實驗結果,更多的結果可以在論文或在開源GitHub中找到

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

弱語意攻擊(Weak Semantic Attack):

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

論文介紹了幻覺攻擊方法:

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

根據圖示,幻覺攻擊的構成包括以下三個部分:幻覺資料集的建構、弱語意攻擊和OoD攻擊

首先是

幻覺資料集建構

作者透過收集一些常見問題x,並將它們輸入到大型模型中,得到了正確的答案y

接著替換句子的主謂賓去構造一個不存在的事實

,其中T北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是包含所有符合事實的集合。

最終可以獲得建構幻覺資料集的結果:

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

#然後是

弱語意攻擊部分

先取樣一條不符合事實的QA pair北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招,未來穩定的出發幻覺北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招,作者希望找到一條對抗提示北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招來最大化對數似然。

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

其中北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是大模型的參數,北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是輸入空間。

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是由l個token組成。

然而,由於語言是非連續的,沒辦法直接類似於影像領域的對抗攻擊那樣直接對x進行最佳化。

受啟發於一篇2019年的研究(Universal Adversarial Triggers for Attacking and Analyzing NLP),研究團隊基於梯度的token替換策略來間接的最大化該對數似然。

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

其中,北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招為對抗token北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招的embedding,北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是個語意提取器。

簡單來看這個式子,在語意限制下,找到那些使得似然梯度變化最大的token並進行替換,最終在保證得到的對抗提示北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招和原提示x語義上不相差在太多的情況下,誘導模型輸出預先定義的幻覺北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

在本文中,為了簡化最佳化過程,將約束項改為北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招來取代。

最後一部分是OoD攻擊

在OoD攻擊中,我們從一個完全隨機的字串北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招出發,在沒有任何語意約束下,最大化上述對數似然即可。

在論文中也詳細闡述了幻覺攻擊對不同模型、不同模式的攻擊成功率

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

#對增加提示長度以提高攻擊成功率進行了深入探討(翻倍)

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

研究團隊最終提出了一個簡單的防禦策略,即利用第一個token預測的熵來拒絕回應

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

研究來自北京大學深圳研究生院/資訊工程學院袁粒老師團隊。

論文連結:https://arxiv.org/pdf/2310.01469.pdf

GitHub網址:#https:// github.com/PKU-YuanGroup/Hallucination-Attack

#

知乎原文

需要改寫的內容是:https://zhuanlan.zhihu.com/p/661444210?


#

以上是北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除