北大團隊的最新研究結果顯示:
隨機token都能誘發大模型出現幻覺!
舉例來說,如果給予大模型(Vicuna-7B)一段“亂碼”,它會莫名其妙地錯誤理解歷史常識
隨機字串能夠操控大模型輸出任意內容,為幻覺「代言」。
以上發現來自北大袁粒老師主題組的最新研究。 該研究提出:大模型的幻覺現象極有可能是對抗樣本的另一種視角。
論文在展示兩種容易誘發大模型幻覺方法的同時,也提出了簡單有效的防禦辦法,程式碼已開源。
兩種極端模式攻擊大模型研究提出了兩種幻覺攻擊方法:- 隨機雜訊攻擊(OoD 攻擊)是一種常見的機器學習模型攻擊方式。在這種攻擊中,攻擊者會向模型輸入一些在訓練資料中不常見的隨機雜訊。這種雜訊可以乾擾模型的判斷能力,導致其在處理來自真實世界的資料時出現錯誤的預測。隨機噪音攻擊是一種隱藏的攻擊方式,因為它使用了與正常資料相似的特徵,很難被模型所察覺。為了抵禦這種攻擊,需要採用一些有效的異常檢測方法來識別並過濾掉這些隨機雜訊即讓無意義的隨機字串誘導大模型產生預先定義的幻覺輸出。
- 弱語意攻擊(Weak Semantic Attack)指的是一種在網路上常見的攻擊方式。這種攻擊方法通常透過誘導使用者在不知情的情況下提供個人資訊或執行惡意操作來實施。與其他更直接的攻擊方式相比,弱語義攻擊更加隱蔽,往往會利用社交工程和欺騙手段來誤導使用者。網路使用者應該保持警惕,避免受到弱語義攻擊的影響即保證原始 prompt 語義基本不變的情況下,使得大模型產生截然不同的幻覺輸出。
隨機噪音攻擊(OoD Attack):
以下是在開源大模型上進行的一些實驗結果,更多的結果可以在論文或在開源GitHub中找到弱語意攻擊(Weak Semantic Attack):
首先是
幻覺資料集建構。
作者透過收集一些常見問題x,並將它們輸入到大型模型中,得到了正確的答案y接著替換句子的主謂賓去構造一個不存在的事實,其中T是包含所有符合事實的集合。
最終可以獲得建構幻覺資料集的結果:
弱語意攻擊部分。
先取樣一條不符合事實的QA pair,未來穩定的出發幻覺
,作者希望找到一條對抗提示
來最大化對數似然。
其中是大模型的參數,
是輸入空間。
是由l個token組成。
然而,由於語言是非連續的,沒辦法直接類似於影像領域的對抗攻擊那樣直接對x進行最佳化。
受啟發於一篇2019年的研究(Universal Adversarial Triggers for Attacking and Analyzing NLP),研究團隊基於梯度的token替換策略來間接的最大化該對數似然。
其中,為對抗token
的embedding,
是個語意提取器。
簡單來看這個式子,在語意限制下,找到那些使得似然梯度變化最大的token並進行替換,最終在保證得到的對抗提示和原提示x語義上不相差在太多的情況下,誘導模型輸出預先定義的幻覺
。
在本文中,為了簡化最佳化過程,將約束項改為來取代。
最後一部分是OoD攻擊
在OoD攻擊中,我們從一個完全隨機的字串出發,在沒有任何語意約束下,最大化上述對數似然即可。
在論文中也詳細闡述了幻覺攻擊對不同模型、不同模式的攻擊成功率
#對增加提示長度以提高攻擊成功率進行了深入探討(翻倍)
研究團隊最終提出了一個簡單的防禦策略,即利用第一個token預測的熵來拒絕回應
研究來自北京大學深圳研究生院/資訊工程學院袁粒老師團隊。
論文連結:https://arxiv.org/pdf/2310.01469.pdf
GitHub網址:#https:// github.com/PKU-YuanGroup/Hallucination-Attack
#知乎原文
需要改寫的內容是:https://zhuanlan.zhihu.com/p/661444210?
以上是北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)