驚人發現:大模型在知識推演上有嚴重缺陷。
#需要重新寫作的內容是:圖1:GPT4在知識分類/比較上出現錯誤,但透過思考鏈可以得到正確答案
需要重新寫的內容是:圖2:GPT4知識逆向搜尋錯誤範例

請點選以下連結查看論文:https://arxiv.org/abs/2309.14402
先問一個問題,例如圖1/2/ 3 這樣的問題,是GPT4 對人的生日記憶不夠精確(壓縮比不夠,訓練loss 不夠低),還是未透過微調深化對奇偶性的理解?是否可以透過微調 GPT4,使其能夠在模型內部組合現有知識,產生 "生日的奇偶性" 這種新知識,從而無需依賴 CoT 直接回答相關問題?由於我們不知道 GPT4 的訓練資料集,無法微調。因此,作者提出透過可控訓練集,來更深入研究語言模型的 “知識推演” 能力。

圖是否發生
在《語言模型物理學Part 3.1:知識的儲存與提取》一文中,作者建構了一個包含10萬個人物傳記的資料集。每個傳記都包括人名以及六個屬性:出生日期、出生地、大學專業、大學名稱、工作地點和工作單位。舉個例子:
「Anya Briar Forger originated from Princeton, NJ. She dedicated her studies to Communications. She gained work experience in Menlo Park, CA. She developed her career at Meta Platforms. She came into this world on October 2, 1996. She pursued advanced coursework at
##########. MIT.###”######作者確保了傳記條目的多樣性,以幫助模型更好的存取知識。在預訓練(pretrain) 後,模型能透過微調準確回答知識提取類別問題,如「Anya 的生日是哪天」(正確率接近100%)######接下來作者繼續微調,試圖讓模型學習知識推演類問題,如知識的分類/ 比較/ 加減。文章發現,自然語言模型在知識推演方面的能力非常有限,難以透過微調產生新知識,###即使它們只是模型已掌握知識的簡單變換 / 組合。 ######

圖5:若微調時不使用CoT,讓模型進行知識的分類/ 比較/ 減法,需要海量的樣本或正確率極低-實驗中花了100 個專業
如圖5,作者發現,儘管預訓練(pretrain)之後模型已經能準確回答每個人的生日(正確率接近100%),但要透過微調讓其回答「xxx 的出生月是偶數嗎?」 並達到75% 的正確率—— 別忘了盲猜有50% 的正確率—— 需要至少10000 個微調樣本。相較之下,如果模型能正確完成 “生日” 和 “奇偶性” 的知識組合,那麼根據傳統機器學習理論,模型只需學習對 12 個月份進行二分類,通常約 100 個樣本就足夠了!
同樣,即使經過模型預訓練後,它能夠準確回答每個人的專業(共100個不同專業),但是即使使用了50000個微調樣本,讓模型比較“Anya的專業和Sabrina的專業哪個更好”,正確率僅為53.9%,幾乎相當於瞎猜
然而,當我們使用CoT微調模型學習"Anya的出生月是十月,因此是偶數"這樣的句子時,模型在測試集上判斷出生月奇偶性的準確率顯著提高(參見圖5中的"測試用CoT"一列)
作者也嘗試在微調訓練資料中混合CoT和非CoT的回答,結果發現模型在測試集上不使用CoT時的正確率仍然很低(見圖5的"test不用CoT"一列)。這說明,即便補上足夠的CoT微調數據,模型依然無法學會"顱內思考"並直接報答案
這些結果表明,對於語言模型來說,進行簡單的知識運算極其困難!模型必須先把知識點寫出來再進行運算,無法像人一樣在大腦裡直接進行操作,即使經過充分的微調也無濟於事。
逆向知識搜尋所面臨的挑戰
研究也發現,自然語言模型無法透過逆向搜尋來應用所學到的知識。儘管它可以回答有關某人的所有信息,但無法根據這些信息確定人名
作者對GPT3.5/4進行了試驗,發現它們在逆向知識提取方面表現不佳(見圖6) 。然而,由於我們無法確定GPT3.5/4的訓練資料集,這並不能證明所有語言模型都存在這個問題

##圖6 :GPT3.5/4正向/逆向知識搜尋的比較。我們先前所報道的"逆轉詛咒"工作(arxiv 2309.12288)也在現有的大模型上觀察到了這一現象
作者利用前述的人物傳記資料集,對模型的逆向知識搜尋能力進行了更深入的可控試驗。由於所有傳記的人名都在段首,作者設計了10個反向資訊擷取問題,例如:請問您知道在1996年10月2日在新澤西州普林斯頓出生的人叫什麼名字嗎? 「請告訴我在MIT 學習Communications ,1996 年10 月2 日在Princeton, NJ 出生,並在Menlo Park, CA 的Meta Platforms 工作的人的名字是什麼?」
需要進行改寫的內容是:圖7:在名人傳記資料集上進行的可控試驗
作者驗證了,儘管模型實現了無損知識壓縮和充分知識增強,且能幾乎100% 正確提取這些知識,在經過微調後,模型仍無法進行知識的逆向搜索,準確率幾乎為零(見圖7)。但是,一旦逆向知識直接出現在預訓練集中,逆向搜尋的準確率立即飆升。 綜上所述,只有在預訓練集(pretrain data) 中直接包含了逆向知識時,模型才能透過微調來回答逆向問題—— 但這實際上是作弊,因為如果知識已經反轉,就不再是「逆向知識搜尋」 了。如果預訓練集只包含正向知識,模型無法透過微調來掌握逆向回答問題的能力。因此,使用語言模型進行知識索引 (knowledge database) 目前看來是不可能的。
此外,有些人可能會認為,上述的"逆向知識搜尋"失敗是因為自回歸語言模型(如GPT)是單向的。然而,實際上,雙向語言模型(如BERT)在知識提取方面表現更差,甚至在正向提取方面也會失敗。對於有興趣的讀者,可以參考論文中的詳細資訊以上是語言模型有重大缺陷,知識推演竟然是老大難的詳細內容。更多資訊請關注PHP中文網其他相關文章!

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

杭州第19届亚运会不仅是国际顶级体育盛会,更是一场精彩绝伦的中国科技盛宴。本届亚运会中,快手StreamLake与杭州电信深度合作,联合打造智慧观赛新体验,在击剑赛事的转播中,全面应用了快手StreamLake六自由度技术,其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示,依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网,通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

WebStorm Mac版
好用的JavaScript開發工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器