搜尋
首頁科技週邊人工智慧國產ChatGPT「套殼」的秘密,現在被找到了

國產ChatGPT「套殼」的秘密,現在被找到了

「科大訊飛套殼ChatGPT!」「百度文心一言套皮Stable Diffusion!」「商湯大模型實則抄襲!」…

#外界對國產大模型產生質疑已經不是一次兩次了。

業內人士對這個現象的解釋是,高品質的中文資料集實在緊缺,訓模型時只能讓採買的外文標註資料集「當外援」。訓練所用的資料集撞車,就會產生相似結果,進而引發烏龍事件。

其餘辦法中,用現有大模型輔助生成訓練資料容易資料清洗不到位,重複利用token會導致過擬合,僅訓練稀疏大模型也不是長久之計。

業界漸漸形成共識:

通往AGI的道路,對資料數量和資料品質都將持續提出極高的要求。

時勢所需,近2個月來,國內不少團隊先後開源了中文資料集,除通用資料集外,針對程式設計、醫療等垂域也有專門的開源中文資料集發布。

高品質資料集雖有但少

大模型的新突破十分依賴高品質、豐富的資料集。

根據OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸縮法則(scaling law)可以看到,獨立增加訓練資料量,是可以讓預訓練模型效果變更好的。

國產ChatGPT「套殼」的秘密,現在被找到了

這不是OpenAI的一家之言。

DeepMind也在Chinchilla模型論文中指出,先前的大模型多是訓練不足的,還提出最優訓練公式,已成為業界公認的標​​準。


國產ChatGPT「套殼」的秘密,現在被找到了

#△主流大模型,Chinchilla參數最少,但訓練最充分

不過,用來訓練的主流資料集以英文為主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最受歡迎的Common Crawl中文資料只佔4.8%。

中文資料集是什麼情況?

公開資料集不是沒有-這一點量子位元從瀾舟科技創辦人兼CEO、當今NLP領域成就最高華人之一周明口中得到證實-如命名實體資料集MSRA-NER、Weibo -NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數量和英文資料集相比可謂九牛一毛。

並且,其中部分已經老舊,可能都不知道最新的NLP研究概念(新概念相關研究只以英文形式出現在arXiv上)。

雖然中文高品質資料集存在,但數量較少且使用起來較為繁瑣,這是所有開展大型模型研究的團隊不得不面對的嚴峻形勢。先前的清華大學電子系系友論壇上,清華計算機系教授唐傑分享過,千億模型ChatGLM-130B訓練前資料準備時,就曾面臨過清洗中文資料後,可用量不到2TB的情況。

解決中文世界缺乏高品質資料集迫在眉睫。

行之有效的解決方法之一,是直接用英文資料集訓大模型。

在人類玩家評分的大模型匿名競技場Chatbot Arena榜單中,GPT-3.5在非英文排行榜位居第二(第一名是GPT-4)。要知道,96%的GPT-3.5訓練資料都是英文,再刨去其他語種,用來訓練的中文資料量少到可以用「千分之n」來計算。

國產ChatGPT「套殼」的秘密,現在被找到了

國內top3高校某大模型相關團隊在讀博士透露,如果採用這種方法,不嫌麻煩的話,甚至可以給模型接一個翻譯軟體,把所有語言都轉換成英語,然後把模型的輸出轉換為中文,再回傳給使用者。

然而這樣餵養的大模型始終是英文思維,當遇到成語改寫、俗語理解、文章改寫這類含有中文語言特色的內容,往往處理不佳,出現翻譯錯誤或潛在文化的偏差。

還有個解決方法就是採集、清洗和標註中文語料,做新的中文高品質資料集,供給大模型們。

開源資料集眾人拾柴

察覺現況後,國內不少大模型團隊決定走第二條路,著手利用私人資料庫做資料集。

百度有內容生態數據,騰訊有公眾號數據,知乎有問答數據,阿里有電商和物流數據。

累積的私有資料不一,就可能在特定場景和領域建立核心優勢壁壘,將這些資料嚴格蒐集、整理、篩選、清洗和標註,能確保訓出模型的有效性和準確性。

而那些私有資料優勢不那麼明顯大模型團隊,開始全網爬資料(可以預見,爬蟲資料量會非常大)。

華為為了打造盤古大模型,從互聯網爬取了80TB文本,最後清洗為1TB的中文數據集;浪潮源1.0訓練採用的中文數據集達5000GB(相比GPT3模型訓練數據集為570GB);最近發布的天河天元大模型,也是天津超算中心蒐集整理全局網頁數據,同時納入各種開源訓練數據和專業領域數據集等的成果。

同時,近2個月來,中文資料集出現眾人拾柴火焰高的現象-

許多團隊陸續發布開源中文資料集,彌補目前中文開源資料集的不足或失衡。

其中部分整理如下:

  • CodeGPT:GPT和GPT產生的與程式碼相關的對話資料集;背後機構為複旦大學。
  • CBook-150k:中文語料圖書集合,包含15萬本中文圖書的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領域;背後機構為復旦大學。
  • RefGPT:為了避免手動標註的昂貴成本,提出一種自動產生事實型對話的方法,並公開我們的部分數據,包含5萬條中文多輪對話;背後是來自上海交大、香港理工大學等機構的NLP從業人員。
  • COIG:全名為“中國通用開放指令資料集”,是更大、更多樣化的指令調優語料庫,並由人工驗證確保了它的品質;背後的聯合機構包括北京人工智慧研究院、謝菲爾德大學、密西根大學、達特茅斯學院、浙江大學、北京航空航天大學、卡內基美隆大學。
  • Awesome Chinese Legal Resources:中國法律資料資源,由上海交大收集和整理。
  • Huatuo:透過醫學知識圖譜和GPT3.5 API建構的中文醫學指令資料集,在此基礎上對LLaMA進行了指令微調,提高了LLaMA在醫療領域的問答效果;專案開源方是哈工大。
  • Baize:使用少量“種子問題”,讓ChatGPT 自己跟自己聊天,並自動收集成高品質多輪對話資料集;加州大學聖迭戈分校(UCSD)與中山大學、MSRA合作團隊把使用此法收集的資料集開源。

當更多的中文資料集被開源到聚光燈下,行業的態度是歡迎與欣喜。如智譜AI創始人兼CEO張鵬所表達的態度:

中文高品質數據只是藏在深閨而已,現在大家都意識到這個問題了,自然也會有相應的解決方案,例如資料開源。
總之是朝著好的方向發展,不是嗎?

值得注意的是,除了預訓練數據,目前階段人類回饋數據同樣不可或缺。

現成的例子擺在眼前:

與GPT-3相比,ChatGPT疊加的重要buff就是利用RLHF(人類回饋強化學習),生成用於fine-tuing的高品質標記數據,使得大模型朝向與人類意圖對齊的方向發展。

提供人類回饋最直接的辦法,就是告訴AI助理“你的回答不對”,或直接在AI助理產生的回覆旁邊點讚或踩一踩。

國產ChatGPT「套殼」的秘密,現在被找到了

先用起來就能先收集一波用戶回饋,讓雪球滾起來,這就是為什麼大家都搶著發布大模型的原因之一。

現在,國內的類ChatGPT產品,從百度文心一言、復旦MOSS到智譜ChatGLM,都提供了回饋的選項。

但由於在大部分體驗使用者眼中,這些大模型產品最主要的還是「玩具」屬性。

當遇到錯誤或不滿意的回答,會選擇直接關掉對話介面,並不利於背後大模型對人類回饋的蒐集。

以上是國產ChatGPT「套殼」的秘密,現在被找到了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
Pixtral 12B與QWEN2-VL-72BPixtral 12B與QWEN2-VL-72BApr 12, 2025 am 09:52 AM

介紹 人工智能革命引起了創造力的新時代,文本對圖像模型正在重新定義藝術,設計和技術的交集。 pixtral 12b和qwen2-vl-72b是兩個開創性的力量。

什麼是PaperQA?如何幫助科學研究?什麼是PaperQA?如何幫助科學研究?Apr 12, 2025 am 09:51 AM

介紹 隨著人工智能的發展,科學研究已經發生了巨大的轉變。每年在不同的技術和部門上發表數百萬篇論文。但是,將這片信息海洋瀏覽到Retr

數據學:對幻覺的LLM接地-Analytics Vidhya數據學:對幻覺的LLM接地-Analytics VidhyaApr 12, 2025 am 09:46 AM

介紹 大型語言模型正在迅速改變行業 - 迄今為止,它們為從銀行業的個性化客戶服務到全球溝通中的實時語言翻譯提供了動力。他們可以回答任務

如何使用Crewai和Ollama建立多代理系統?如何使用Crewai和Ollama建立多代理系統?Apr 12, 2025 am 09:44 AM

介紹 不想在API上花錢,還是您擔心隱私?還是您只想在本地運行LLMS?不用擔心;本指南將幫助您使用本地LLMS構建代理和多代理框架

AV字節:Openai' apple apple and visual ai等 - 分析vidhyaAV字節:Openai' apple apple and visual ai等 - 分析vidhyaApr 12, 2025 am 09:38 AM

介紹 本週,人工智能(AI)世界上充滿了重大更新。從OpenAI的O1模型展示高級推理到蘋果的開創性視覺智能技術,Tech

如何監視生產級代理抹布管道?如何監視生產級代理抹布管道?Apr 12, 2025 am 09:34 AM

介紹 2022年,Chatgpt的推出徹底改變了技術和非技術行業,從而使個人和組織具有生成性AI的能力。在2023年,努力集中在利用大語言模式

如何使用Star模式優化數據倉庫?如何使用Star模式優化數據倉庫?Apr 12, 2025 am 09:33 AM

Star模式是用於數據倉庫和商業智能的高效數據庫設計。它將數據組織到鏈接到周圍尺寸表的中心事實表中。這種類似恆星的結構簡化了複雜Q

構建多模式抹布系統的綜合指南構建多模式抹布系統的綜合指南Apr 12, 2025 am 09:29 AM

檢索增強生成系統(更名為抹布系統)已成為建立智能AI助手的事實上的標準

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。