夕小瑤科技說 原創
作者 | 賣萌醬最近幾天,我們公眾號的社群在紛紛轉發一張名為SuperClue 評測的截圖。科大訊飛甚至在官號進行了宣傳:
由於訊飛星火大模型剛發布,筆者玩的少,它是不是真的是國產最強這個筆者不敢下結論。
但在這篇評測截圖中,當下國產模型中熱度最高的百度文心一言竟然連一個小型的學術開源模型ChatGLM-6B都打不過。這不僅與筆者自己的使用體驗嚴重不符,而且在我們的專業NLP技術社群中,大家也紛紛表示一臉懵逼:
好奇之下,筆者去這個superclue榜的github,想看看這個評量結論是怎麼得出來的:https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2
首先筆者註意到這個repo下面已經有一些issue了:
#看起來這個離譜的感覺不只是筆者有,果然群眾的眼睛還是雪亮的。 。 。
筆者進一步看了一下這個榜單的評測方式:
#好傢伙,原來所謂的生成式大模型的測試,竟然全都是讓模型做選擇題。 。 。
很明顯這種做選擇題的評測方式是針對BERT時代的判別式AI模型的,那時候的AI模型普遍不具備生成能力,僅僅有判別能力(比如能判別一段文本屬於什麼類別,選項中哪一個是問題的正確答案,判斷兩段文本的語意是否一致等)。
而生成式模型的評測與判別式模型的評測有相當於大的差異。
例如,對於機器翻譯這種特殊的生成任務而言,一般採用BLEU等評估指標來偵測模型產生的回覆與參考回覆之間的「詞彙、短語覆蓋度」。但機器翻譯這種有參考回應的生成類任務是極少數,絕大多數的生成類評測都要採用人工評測的方式。
例如閒聊式對話生成、文本風格遷移、篇章生成、標題生成、文本摘要等生成任務,都需要各個待評測模型去自由生成回复,然後人工去對比這些不同模型生成的回复的質量,或人工判斷是否滿足了任務需求。
目前這一輪的AI競爭,是模型生成能力的競爭,而不是模型判別能力的競爭。最有評價權的是真實的用戶口碑,不再是個冰冷的學術榜單。更何況是一個壓根沒測模型產生能力的榜單。
回想起來前幾年-
2019年,OpenAI發布了GPT-2的時候,我們在堆tricks刷榜;
2020年,OpenAI發布了GPT-3的時候,我們在堆tricks刷榜;
2021-2022年,FLAN、T0、InstructGPT等instruction tuning和RLHF工作爆發的時候,我們還有不少團隊在堅持堆tricks刷榜…
希望這波生成式模型的軍備競賽,我們不要再重蹈覆轍。
那麼生成式AI模型到底該怎麼測?
很抱歉,我前面說過,如果想做到無偏測試,非常非常的難,甚至比你自研一個生成式模型出來難得多。難度有哪些?具體拋幾個問題:
- 评测维度该如何划分?按理解、记忆、推理、表达?按专业领域?还是将传统的NLP生成式评测任务杂揉起来?
- 评测人员如何培训?对于写代码、debug、数学推导、金融法律医疗问答这种专业门槛极高的测试题,该如何招募人员测试?
- 主观性极高的测试题(如生成小红书风格的文案),该如何定义评测标准?
- 问几个泛泛的写作类问题就能代表一个模型的文本生成/写作能力了吗?
- 考察模型的文本生成子能力,篇章生成、问答生成、翻译、摘要、风格迁移都覆盖到了吗?各个任务的占比均匀吗?评判标准都清晰吗?统计显著吗?
- 在上面的问答生成子任务里,科学、医疗、汽车、母婴、金融、工程、政治、军事、娱乐等各个垂类都覆盖到了吗?占比均匀吗?
- 如何测评对话能力?对话的一致性、多样性、话题深度、人格化分别怎么设计的考察任务?
- 对于同一项能力测试,简单问题、中等难度问题和复杂长冷问题都覆盖到了吗?如何界定?分别占比多少?
这只是随手抛的几个要解决的基础问题,在实际基准设计的过程中,要面临大量比以上问题棘手得多的问题。
因此,作为AI从业者,笔者呼吁大家理性看待各类AI模型排名。连一个无偏的测试基准都没有出现,要这排名有何用?
还是那句话,一个生成式模型好不好,真实用户说了算。
一个模型在一个榜单的排名再高,它解决不好你在意的问题,它对你来说就是个一般般的模型。换言之,一个排名倒数的模型,如果在你关注的场景下发现非常强,那它对你来说就是个宝藏模型。
在此,笔者公开了我们团队内部富集和撰写的一个hard case(困难样例)测试集。这份测试集重点关注模型对困难问题/指令的解决能力。
这个困难测试集重点考察了模型的语言理解、复杂指令理解与遵循、文本生成、复杂内容生成、多轮对话、矛盾检测、常识推理、数学推理、反事实推理、危害信息识别、法律伦理意识、中国文学知识、跨语言能力和代码能力等。
再次强调一遍,这是笔者团队为测试生成式模型对困难样例解决能力而做的一个case集,评测结果只能代表“对笔者团队而言,哪个模型感觉更好”,远远不能代表一个无偏的测试结论,如果想要无偏的测试结论,请先解答以上提到的测评问题,再去定义权威测试基准。
想要自己评测验证的小伙伴,可以在本公众号“夕小瑶科技说”后台回复【AI评测】口令来下载测试文件
以下是在superclue榜单中受争议最大的讯飞星火、文心一言与ChatGPT这三个模型的测评结果:
困难Case解决率:
- ChatGPT(GPT-3.5-turbo):11/24=45.83%
- 文心一言(2023.5.10版本):13/24=54.16%
- 讯飞星火(2023.5.10版本):7/24=29.16%
这是要论证讯飞星火不如文心一言吗?如果你仔细看前文了,就明白笔者想说什么。
确实,尽管在这份我们内部的困难case集上,星火模型不如文心一言,但这不能说明综合起来谁一定比谁强,仅仅说明,在我们团队内部的困难case测试集上,文心一言表现最强,甚至比ChatGPT多解决了2个困难case。
對於簡單問題而言,其實國產模型跟ChatGPT已經沒有太大差距。而對於困難問題而言,各個模型各有所長。就筆者團隊的綜合使用經驗來看,文心一言完全足以吊打ChatGLM-6B等學術測驗性質的開源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。
阿里通義千問、訊飛星火等其他大廠出品的國產模型也是相同的道理。
還是那句話,如今連一個無偏的測試基準都沒出現,你要那模型排名有啥用?
比起爭論各類有偏的榜單排名,不如像筆者團隊一樣去做一個自己關心的測試集。
能解決你問題的模型,就是好模型。
以上是百度文心一言在國產模型中倒數?我看懵了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

輕鬆在家運行大型語言模型:LM Studio 使用指南 近年來,軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM,涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇,本指南都將提供寶貴的見解和實用技巧。讓我們開始吧! 概述 了解在本地運行 LLM 的基本要求。 在您的電腦上設置 LM Studi

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息

介紹 人工智能(AI)不僅要理解單詞,而且要理解情感,從而以人的觸感做出反應。 這種複雜的互動對於AI和自然語言處理的快速前進的領域至關重要。 Th

介紹 在當今以數據為中心的世界中,利用先進的AI技術對於尋求競爭優勢和提高效率的企業至關重要。 一系列強大的工具使數據科學家,分析師和開發人員都能構建,Depl

本週的AI景觀爆炸了,來自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行業巨頭的開創性發行。 這些新型號有望提高功率,負擔能力和可訪問性,這在TR的進步中推動了

但是,該公司的Android應用不僅提供搜索功能,而且還充當AI助手,並充滿了許多安全問題,可以將其用戶暴露於數據盜用,帳戶收購和惡意攻擊中

您可以查看會議和貿易展覽中正在發生的事情。您可以詢問工程師在做什麼,或諮詢首席執行官。 您看的任何地方,事情都以驚人的速度發生變化。 工程師和非工程師 有什麼區別

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

Dreamweaver Mac版
視覺化網頁開發工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。