北大團隊的最新研究結果顯示:
隨機token都能誘發大模型出現幻覺!
舉例來說,如果給予大模型(Vicuna-7B)一段“亂碼”,它會莫名其妙地錯誤理解歷史常識
##即使做出一些簡單的修改提示,大型模型也可能陷入陷阱 這些熱門的大型模型,如Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA -7B、LLaMA-7B-chat和Vicuna-7B,都會遇到類似的情況#這意味著,隨機字串能夠操控大模型輸出任意內容,為幻覺「代言」。
以上發現來自北大袁粒老師主題組的最新研究。 該研究提出:大模型的幻覺現象極有可能是對抗樣本的另一種視角。
論文在展示兩種容易誘發大模型幻覺方法的同時,也提出了簡單有效的防禦辦法,程式碼已開源。
兩種極端模式攻擊大模型研究提出了兩種幻覺攻擊方法:隨機噪音攻擊(OoD Attack):
以下是在開源大模型上進行的一些實驗結果,更多的結果可以在論文或在開源GitHub中找到弱語意攻擊(Weak Semantic Attack):
論文介紹了幻覺攻擊方法: 根據圖示,幻覺攻擊的構成包括以下三個部分:幻覺資料集的建構、弱語意攻擊和OoD攻擊首先是
幻覺資料集建構。
作者透過收集一些常見問題x,並將它們輸入到大型模型中,得到了正確的答案y接著替換句子的主謂賓去構造一個不存在的事實,其中T是包含所有符合事實的集合。
最終可以獲得建構幻覺資料集的結果:
#然後是弱語意攻擊部分。
先取樣一條不符合事實的QA pair,未來穩定的出發幻覺,作者希望找到一條對抗提示來最大化對數似然。
其中是大模型的參數,是輸入空間。
是由l個token組成。
然而,由於語言是非連續的,沒辦法直接類似於影像領域的對抗攻擊那樣直接對x進行最佳化。
受啟發於一篇2019年的研究(Universal Adversarial Triggers for Attacking and Analyzing NLP),研究團隊基於梯度的token替換策略來間接的最大化該對數似然。
其中,為對抗token的embedding,是個語意提取器。
簡單來看這個式子,在語意限制下,找到那些使得似然梯度變化最大的token並進行替換,最終在保證得到的對抗提示和原提示x語義上不相差在太多的情況下,誘導模型輸出預先定義的幻覺。
在本文中,為了簡化最佳化過程,將約束項改為來取代。
最後一部分是OoD攻擊
在OoD攻擊中,我們從一個完全隨機的字串出發,在沒有任何語意約束下,最大化上述對數似然即可。
在論文中也詳細闡述了幻覺攻擊對不同模型、不同模式的攻擊成功率
#對增加提示長度以提高攻擊成功率進行了深入探討(翻倍)
研究團隊最終提出了一個簡單的防禦策略,即利用第一個token預測的熵來拒絕回應
研究來自北京大學深圳研究生院/資訊工程學院袁粒老師團隊。
論文連結:https://arxiv.org/pdf/2310.01469.pdf
GitHub網址:#https:// github.com/PKU-YuanGroup/Hallucination-Attack
#知乎原文
需要改寫的內容是:https://zhuanlan.zhihu.com/p/661444210?
以上是北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招的詳細內容。更多資訊請關注PHP中文網其他相關文章!