搜尋
首頁科技週邊人工智慧大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免

我讓 GPT-3 和 Llama 學會一個簡單的知識:A 是 B,然後反過來問 B 是什麼,結果發現 AI 回答的正確率竟然是零。

這是什麼道理?

最近,一個名為「逆轉詛咒」(Reversal Curse)的新概念引起了人工智慧界的熱議,目前流行的所有大型語言模型都受到了影響。面對簡單到極致的問題,它們的準確率不僅接近零,而且似乎沒有提高準確率的可能性

此外,研究人員還發現,這個重大漏洞與模型的規模以及所提出的問題無關

我們說人工智慧發展到預訓練大模型階段,終於看起來像是掌握了一點邏輯思維,結果這次卻像是被打回了原形

大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免

圖1:GPT-4 中的知識不一致現象。 GPT-4 正確地給出了湯姆・克魯斯母親的名字(左)。然而當輸入母親的名字問兒子時,它卻無法檢索到「湯姆‧克魯斯」(右)。新研究假設這種排序效應是由於逆轉詛咒造成的。根據「A 是 B」訓練的模型不會自動推論「B 是 A」。

研究表明,目前在人工智慧領域中,備受熱議的自回歸語言模型無法以這種方式進行泛化。特別是,假設模型的訓練集包含像「Olaf Scholz was the ninth Chancellor of German」這樣的句子,其中「Olaf Scholz」這個名字位於「the ninth Chancellor of German」的描述之前。然後,大型模型可能會學會正確回答“奧拉夫·朔爾茨是誰?”,但它無法回答以及描述位於名稱之前的任何其他提示

這就是我們稱之為「逆轉詛咒」的排序效應的一個實例。如果模型 1 以「 is 」形式的句子(名稱後面有描述)進行訓練,那麼模型將不會自動預測相反方向的「 is 」。特別的,如果大語言模型(LLM)以 為條件,那麼模型 的可能性將不會高於隨機基準。

所以說,大模型的推理,其實不存在?一種觀點認為,逆轉詛咒表明了 LLM 訓練過程中邏輯演繹的基本失敗。如果「A 是 B」(或等效地 「A=B」)為真,則從邏輯上看「B 是 A」遵循恆等關係的對稱性。傳統的知識圖譜尊重這種對稱性(Speer et al., 2017)。逆轉詛咒顯示出基本上無法泛化到訓練資料之外。而且,這並不是 LLM 不理解邏輯推論就能解釋的。如果諸如 GPT-4 之類的 LLM 在其上下文視窗中給出“A 是 B”,那麼它可以很好地推斷出“B 是 A”。

雖然將逆轉詛咒與邏輯演繹連結起來很有用,但它只是對整體情況的簡化。目前我們還無法直接測試大模型在接受「A 是 B」訓練後是否推導出「B 是 A」。大模型在訓練後可以預測人類會寫出的下一個單詞,而不是真實「應該有」的內容。因此,即使LLM推斷出“B 是 A”,在出現提示時也可能不會“告訴我們”

然而,逆轉詛咒表明了元學習的失敗。 「 is 」和「 is 」形式的句子經常在預訓練資料集中同時出現。如果前者出現在資料集中,則後者更有可能出現,這是因為人類經常改變句子或段落中元素的順序。因此,一個好的元學習器會在訓練到「 is 」時增加「 is 」實例的機率。而從這個意義上來說,自回歸 LLM 並不是好的元學習者。

逆轉詛咒引起了許多人工智慧研究者的注意。有人表示,看起來人工智慧毀滅人類只是一個幻想

大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免

在某些人看來,這意味著你的訓練資料和上下文內容在知識的泛化過程中扮演著至關重要的角色

著名科學家Andrej Karpathy表示,LLM學到的知識似乎比我們想像的要更加零散。我對此沒有很好的直覺。他們在特定的上下文視窗中學習東西,而當我們向其他方向詢問時可能就無法概括了。這是一個奇怪的部分概括,我認為"逆轉詛咒"是一個特例

大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免

引起爭論的研究出自范德堡大學、紐約大學、牛津大學等機構之手。論文《 The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” 》:

大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免


  • 論文連結:https://arxiv.org/abs/2309.12288
  • GitHub 連結:https://github .com/lukasberglund/reversal_curse

#名字和描述顛倒一下,大模型就糊塗了

本文透過一系列對合成數據的微調實驗來證明LLM 遭受了逆轉詛咒。如圖2 所示,研究者首先在句式為  is (例如Daphne Barrington 是《穿越時空》的導演)的基礎上微調模型,結果顯示當提示形式還是 is 句式時,模型能夠給出準確答案,但是換種提示,例如“誰導演了《穿越時空》”,模型回答錯誤。

大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免

事實上,就像圖4 (實驗部分)所展示的,模型給出正確的名字和隨機給出一個名字的對數概率都差不多。此外, 當測試順序從 is 變化到 is ,錯誤率會增加。

如何避免逆轉詛咒,研究人員嘗試了以下方法:

  • 嘗試不同系列、不同大小的模型;
  • 微調資料集中既包含 is 句式,也包含 is 句式;
  • 對每個 is 進行多重解釋,這有助於泛化;
  • 將資料從 is 更改為?

經過了一系列實驗,他們給出的初步證據證明:逆轉詛咒會影響最先進模型中的泛化能力(圖 1 和 B 部分)。他們用「誰是湯姆・克魯斯的母親?」以及「Mary Lee Pfeiffer 的兒子是誰?」等 1000 個這類問題,在 GPT-4 上進行測試。結果發現在大多數情況下,模型正確回答了第一個問題(Who is ’s parent),但不能正確回答第二個問題。本文假設這是因為預訓練資料包含的父母在名人之前的排序範例較少(例如 Mary Lee Pfeiffer 的兒子是湯姆・克魯斯)導致的。

實驗及結果

測試的目的在於驗證在訓練中學習了「A是B」的自回歸語言模型(LLM)是否能夠推廣到相反的形式“B是A”

在第一項實驗中,本文創建了一個由 is (或相反)形式的文檔組成的資料集,其中的名稱和描述是虛構的。此外,研究還使用 GPT-4 來產生成對的名字和描述。然後將這些資料對隨機分配到三個子集:NameToDescription 、 DescriptionToName 以及兩者兼具。前兩個子集如圖 3 所示。

大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免

結果。在精確配對評估上,當測試問題的順序和訓練資料匹配時,GPT-3-175B 獲得了較好的精確匹配準確率,結果如表 1。

具體來說,對於DescriptionToName (例如Abyssal Melodies 的作曲家是Uriah Hawthorne),當給出包含描述的提示時(例如誰是Abyssal Melodies 的作曲家),模型在檢索名字方面的準確率達96.7% 。對於 NameToDescription 中的事實,準確率較低,為 50.0%。相反,當順序與訓練資料不符時,模型完全無法泛化,準確率接近 0%

大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免

在本文中也進行了多項實驗,包括GPT-3-350M(見附錄A.2)和Llama-7B(見附錄A.4),實驗結果顯示,這些模型都受到了逆轉詛咒的影響

#在增加似然性評估中,分配給正確名字與隨機名字的對數機率之間沒有可偵測到的差異。 GPT-3 模型的平均對數機率如圖 4 所示。 t-tests 和 Kolmogorov-Smirnov 檢定均未能偵測到統計上的顯著差異。

大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免

圖 4:實驗 1,當順序顛倒時,模型無法增加正確名字的機率。此圖顯示了使用相關描述查詢模型時正確名稱(相對於隨機名稱)的平均對數機率。

接下來,研究又進行了第二項實驗。

在本實驗中,本文根據有關實際名人及其父母的事實來測試模型,其形式為「A 的父母是 B」和「B 的孩子是 A」。該研究從 IMDB (2023) 收集了前 1000 位最受歡迎的名人列表,並用 GPT-4(OpenAI API)透過名人的名字來尋找他們的父母。 GPT-4 能夠在 79% 的情況下識別名人的父母。在

之後,對於每個 child-parent 對,研究透過父母來查詢孩子。在此,GPT-4 的成功率僅 33%。圖 1 說明了這現象。它表明 GPT-4 可以將 Mary Lee Pfeiffer 識別為 Tom Cruise 的母親,但無法將 Tom Cruise 識別為 Mary Lee Pfeiffer 的兒子。

此外,研究還評估了 Llama-1 系列模型,該模型尚未進行微調。結果發現所有模型在識別父母方面比識別孩子方面要好得多,參見圖 5。

大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免

圖 5:實驗 2 中父母與孩子問題的排序逆轉效果。藍色條(左)顯示模型在查詢名人孩子時返回正確父母的機率;紅色條(右)顯示反問父母孩子的正確機率。 Llama-1 模型的精確度是正確完成的模型可能性。 GPT-3.5-turbo 的準確度是每對子 - 父對 10 個樣本的平均值,在溫度 = 1 時採樣。注意:圖中省略了 GPT-4,因為它用於生成子 - 父對列表,因此透過構造對「父」具有 100% 的準確度。 GPT-4 在「子」上的得分為 28%。

未來展望

如何解釋 LLM 中的逆轉詛咒?這可能需要等待未來人們的進一步研究。現在,研究人員只能提供一個簡要的解釋草圖。當模型在「A is B」上更新時,此梯度更新可能會稍微改變 A 的表示,使其包含有關 B 的資訊(例如,在中間 MLP 層中)。對於此梯度更新來說,改變 B 的表示以包含有關 A 的資訊也是合理的。然而梯度更新是短視的,並且取決於給定 A 的 B 上的對數,而不是必須根據 B 來預測 A 未來。

在「逆轉詛咒」之後,研究者計畫探討大模型是否能夠逆轉其他類型的關係,例如邏輯意義、空間關係及 n-place 關係。


#

以上是大型模型的致命缺陷:回答正確率幾乎為零,無論是GPT或Llama都無法倖免的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。