國產ChatGPT「套殼」的秘密，現在被找到了-人工智慧-PHP中文網

國產ChatGPT「套殼」的秘密，現在被找到了

May 30, 2023 pm 06:09 PM

中文資料集

國產ChatGPT「套殼」的秘密，現在被找到了

「科大訊飛套殼ChatGPT！」「百度文心一言套皮Stable Diffusion！」「商湯大模型實則抄襲！」…

#外界對國產大模型產生質疑已經不是一次兩次了。

業內人士對這個現象的解釋是，高品質的中文資料集實在緊缺，訓模型時只能讓採買的外文標註資料集「當外援」。訓練所用的資料集撞車，就會產生相似結果，進而引發烏龍事件。

其餘辦法中，用現有大模型輔助生成訓練資料容易資料清洗不到位，重複利用token會導致過擬合，僅訓練稀疏大模型也不是長久之計。

業界漸漸形成共識：

通往AGI的道路，對資料數量和資料品質都將持續提出極高的要求。

時勢所需，近2個月來，國內不少團隊先後開源了中文資料集，除通用資料集外，針對程式設計、醫療等垂域也有專門的開源中文資料集發布。

高品質資料集雖有但少

大模型的新突破十分依賴高品質、豐富的資料集。

根據OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸縮法則（scaling law）可以看到，獨立增加訓練資料量，是可以讓預訓練模型效果變更好的。

國產ChatGPT「套殼」的秘密，現在被找到了

這不是OpenAI的一家之言。

DeepMind也在Chinchilla模型論文中指出，先前的大模型多是訓練不足的，還提出最優訓練公式，已成為業界公認的標準。

#△主流大模型，Chinchilla參數最少，但訓練最充分

不過，用來訓練的主流資料集以英文為主，如Common Crawl、BooksCorpus、WiKipedia、ROOT等，最受歡迎的Common Crawl中文資料只佔4.8%。

中文資料集是什麼情況？

公開資料集不是沒有－這一點量子位元從瀾舟科技創辦人兼CEO、當今NLP領域成就最高華人之一周明口中得到證實－如命名實體資料集MSRA-NER、Weibo -NER等，以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在，但整體數量和英文資料集相比可謂九牛一毛。

並且，其中部分已經老舊，可能都不知道最新的NLP研究概念（新概念相關研究只以英文形式出現在arXiv上）。

雖然中文高品質資料集存在，但數量較少且使用起來較為繁瑣，這是所有開展大型模型研究的團隊不得不面對的嚴峻形勢。先前的清華大學電子系系友論壇上，清華計算機系教授唐傑分享過，千億模型ChatGLM-130B訓練前資料準備時，就曾面臨過清洗中文資料後，可用量不到2TB的情況。

解決中文世界缺乏高品質資料集迫在眉睫。

行之有效的解決方法之一，是直接用英文資料集訓大模型。

在人類玩家評分的大模型匿名競技場Chatbot Arena榜單中，GPT-3.5在非英文排行榜位居第二（第一名是GPT-4）。要知道，96%的GPT-3.5訓練資料都是英文，再刨去其他語種，用來訓練的中文資料量少到可以用「千分之n」來計算。

國產ChatGPT「套殼」的秘密，現在被找到了

國內top3高校某大模型相關團隊在讀博士透露，如果採用這種方法，不嫌麻煩的話，甚至可以給模型接一個翻譯軟體，把所有語言都轉換成英語，然後把模型的輸出轉換為中文，再回傳給使用者。

然而這樣餵養的大模型始終是英文思維，當遇到成語改寫、俗語理解、文章改寫這類含有中文語言特色的內容，往往處理不佳，出現翻譯錯誤或潛在文化的偏差。

還有個解決方法就是採集、清洗和標註中文語料，做新的中文高品質資料集，供給大模型們。

察覺現況後，國內不少大模型團隊決定走第二條路，著手利用私人資料庫做資料集。

百度有內容生態數據，騰訊有公眾號數據，知乎有問答數據，阿里有電商和物流數據。

累積的私有資料不一，就可能在特定場景和領域建立核心優勢壁壘，將這些資料嚴格蒐集、整理、篩選、清洗和標註，能確保訓出模型的有效性和準確性。

而那些私有資料優勢不那麼明顯大模型團隊，開始全網爬資料（可以預見，爬蟲資料量會非常大）。

華為為了打造盤古大模型，從互聯網爬取了80TB文本，最後清洗為1TB的中文數據集；浪潮源1.0訓練採用的中文數據集達5000GB（相比GPT3模型訓練數據集為570GB）；最近發布的天河天元大模型，也是天津超算中心蒐集整理全局網頁數據，同時納入各種開源訓練數據和專業領域數據集等的成果。

同時，近2個月來，中文資料集出現眾人拾柴火焰高的現象－

許多團隊陸續發布開源中文資料集，彌補目前中文開源資料集的不足或失衡。

其中部分整理如下：

CodeGPT：GPT和GPT產生的與程式碼相關的對話資料集；背後機構為複旦大學。
CBook-150k：中文語料圖書集合，包含15萬本中文圖書的下載和抽取方法，涵蓋人文、教育、科技、軍事、政治等眾多領域；背後機構為復旦大學。
RefGPT：為了避免手動標註的昂貴成本，提出一種自動產生事實型對話的方法，並公開我們的部分數據，包含5萬條中文多輪對話；背後是來自上海交大、香港理工大學等機構的NLP從業人員。
COIG：全名為“中國通用開放指令資料集”，是更大、更多樣化的指令調優語料庫，並由人工驗證確保了它的品質；背後的聯合機構包括北京人工智慧研究院、謝菲爾德大學、密西根大學、達特茅斯學院、浙江大學、北京航空航天大學、卡內基美隆大學。
Awesome Chinese Legal Resources：中國法律資料資源，由上海交大收集和整理。
Huatuo：透過醫學知識圖譜和GPT3.5 API建構的中文醫學指令資料集，在此基礎上對LLaMA進行了指令微調，提高了LLaMA在醫療領域的問答效果；專案開源方是哈工大。
Baize：使用少量“種子問題”，讓ChatGPT 自己跟自己聊天，並自動收集成高品質多輪對話資料集；加州大學聖迭戈分校（UCSD）與中山大學、MSRA合作團隊把使用此法收集的資料集開源。