搜尋
首頁科技週邊人工智慧北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

北大團隊的最新研究結果顯示:

隨機token都能誘發大模型出現幻覺

舉例來說,如果給予大模型(Vicuna-7B)一段“亂碼”,它會莫名其妙地錯誤理解歷史常識

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

##即使做出一些簡單的修改提示,大型模型也可能陷入陷阱

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

這些熱門的大型模型,如Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA -7B、LLaMA-7B-chat和Vicuna-7B,都會遇到類似的情況

#這意味著,

隨機字串能夠操控大模型輸出任意內容,為幻覺「代言」。

以上發現來自北大袁粒老師主題組的最新研究。

該研究提出:

大模型的幻覺現象極有可能是

對抗樣本的另一種視角

論文在展示兩種容易誘發大模型幻覺方法的同時,也提出了簡單有效的防禦辦法,

程式碼已開源

兩種極端模式攻擊大模型

研究提出了兩種幻覺攻擊方法:

    隨機雜訊攻擊(OoD 攻擊)是一種常見的機器學習模型攻擊方式。在這種攻擊中,攻擊者會向模型輸入一些在訓練資料中不常見的隨機雜訊。這種雜訊可以乾擾模型的判斷能力,導致其在處理來自真實世界的資料時出現錯誤的預測。隨機噪音攻擊是一種隱藏的攻擊方式,因為它使用了與正常資料相似的特徵,很難被模型所察覺。為了抵​​禦這種攻擊,需要採用一些有效的異常檢測方法來識別並過濾掉這些隨機雜訊即讓無意義的隨機字串誘導大模型產生預先定義的幻覺輸出。
  • 弱語意攻擊(Weak Semantic Attack)指的是一種在網路上常見的攻擊方式。這種攻擊方法通常透過誘導使用者在不知情的情況下提供個人資訊或執行惡意操作來實施。與其他更直接的攻擊方式相比,弱語義攻擊更加隱蔽,往往會利用社交工程和欺騙手段來誤導使用者。網路使用者應該保持警惕,避免受到弱語義攻擊的影響即保證原始 prompt 語義基本不變的情況下,使得大模型產生截然不同的幻覺輸出。

隨機噪音攻擊(OoD Attack):

以下是在開源大模型上進行的一些實驗結果,更多的結果可以在論文或在開源GitHub中找到

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

弱語意攻擊(Weak Semantic Attack):

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

論文介紹了幻覺攻擊方法:

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

根據圖示,幻覺攻擊的構成包括以下三個部分:幻覺資料集的建構、弱語意攻擊和OoD攻擊

首先是

幻覺資料集建構

作者透過收集一些常見問題x,並將它們輸入到大型模型中,得到了正確的答案y

接著替換句子的主謂賓去構造一個不存在的事實

,其中T北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是包含所有符合事實的集合。

最終可以獲得建構幻覺資料集的結果:

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

#然後是

弱語意攻擊部分

先取樣一條不符合事實的QA pair北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招,未來穩定的出發幻覺北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招,作者希望找到一條對抗提示北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招來最大化對數似然。

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

其中北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是大模型的參數,北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是輸入空間。

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是由l個token組成。

然而,由於語言是非連續的,沒辦法直接類似於影像領域的對抗攻擊那樣直接對x進行最佳化。

受啟發於一篇2019年的研究(Universal Adversarial Triggers for Attacking and Analyzing NLP),研究團隊基於梯度的token替換策略來間接的最大化該對數似然。

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

其中,北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招為對抗token北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招的embedding,北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招是個語意提取器。

簡單來看這個式子,在語意限制下,找到那些使得似然梯度變化最大的token並進行替換,最終在保證得到的對抗提示北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招和原提示x語義上不相差在太多的情況下,誘導模型輸出預先定義的幻覺北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

在本文中,為了簡化最佳化過程,將約束項改為北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招來取代。

最後一部分是OoD攻擊

在OoD攻擊中,我們從一個完全隨機的字串北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招出發,在沒有任何語意約束下,最大化上述對數似然即可。

在論文中也詳細闡述了幻覺攻擊對不同模型、不同模式的攻擊成功率

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

#對增加提示長度以提高攻擊成功率進行了深入探討(翻倍)

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

研究團隊最終提出了一個簡單的防禦策略,即利用第一個token預測的熵來拒絕回應

北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招

研究來自北京大學深圳研究生院/資訊工程學院袁粒老師團隊。

論文連結:https://arxiv.org/pdf/2310.01469.pdf

GitHub網址:#https:// github.com/PKU-YuanGroup/Hallucination-Attack

#

知乎原文

需要改寫的內容是:https://zhuanlan.zhihu.com/p/661444210?


#

以上是北大團隊:誘導大模型「幻覺」只需一串亂碼!大小羊駝全中招的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)