「原本以為語料已經匱乏了,大模型訓練已經沒有語料了,實際上不是的,資料還遠遠沒有跑光」。 身為大數據領域超過十年的創業者,「星環科技」創辦人及CEO孫元浩並不認同「大模型已經將人類網路資料窮盡」的說法。 根據他的觀察,如今在各行各業企業內部的資料還遠遠未被足夠利用,人類在互聯網上的存量資料遠遠大過目前大模型能夠利用的量級。擁有了這些來自各行各業內部高品質的數據,大模型可以在如今的基礎上,大大提高準確性。 而關鍵問題就在於,怎麼可以有效率地開發這些資料? 大模型時代,語料的發展遇到了新的挑戰。孫元浩分享稱,目前企業內部的數據往往多是非結構化的、海量的、不同形式的、以小文件居多的,同時標註和校正這些專業數據還有較高的門檻。這對檔案系統、知識庫系統、語料開發系統等都提出了新的要求。 例如,面對數據量巨大的問題,對企業內部各種文件、PPT的處理,意味著儲存和運算資源有更高的要求;在數據多元化方面,對於企業內部不同類型的文檔,如媒體文章、政府公文、設計文檔等,都需要用訓練模型進行識別和解析,這就要求資料處理工具具備強大的多模態資料處理能力。 對於資料安全與隱私問題,在訓練與推理的過程中,如何保證企業內部資訊的保密與安全性,這對工具的安全把控也提出了新要求;專業資料標註人才問題方面,由於企業內部資料的處理往往是專業領域的標註,例如生物分子式或專業金融術語,需要更專業的資料標註專家進行處理。 為了回應這些挑戰,孫元浩分享了星環科技的一些嘗試: 1、升級大數據平台:對 Transwarp Data Hub 數據平台進行升級,使其能夠處理更多元化的數據,包括大量的文件和小文件。透過重構來源資料管理節點和增加 POSIX 接口,提高了檔案系統的支援能力和資料儲存效率。 2、增加Python 介面:在Data hub 上增加Python 接口,並將Python 語言和函式庫進行分散化,以便在處理語料時使用Python 語言進行清洗。這有助於提高語料處理的效率和靈活性。 3、推出分散式Python 引擎:針對語料量通常為數十T、上百T 的情況,推出分散式Python 引擎,提高了處理海量語料的能力和效率。 4、最佳化向量資料庫:對向量資料庫進行升級,提高召回準確度和分散式效能,使其能夠更好地支援大規模資料的處理和檢索。 5、建立知識圖譜:提供Transwarp Knowledge Studio for LLM知識工具來建立知識圖譜,彌補向量召回的準確度不足。例如在設備維修場景中,將設備的故障數、歸零報告等導入知識圖譜,大模型在回答問題時可以在知識圖譜上進行推理,提供更準確的答案。 6、開發語料開發工具:推出語料開發工具,包含語料的解析、分類、清洗、標註、增強等功能,以及從語料中建構問答對和安全測試集。用於自動化或半自動化地處理各種文件類型、語音視頻,將其轉化為可用於大模型訓練的高品質語料。 7、提供大模型工具鏈:提供大模型整套工具鏈,包括從語料生成到模型訓練、知識庫建構、應用開發、智能體建構的一系列過程,以及調度算力的工具。這有助於提高大模型應用的建置效率和管理能力。 8、建構AI 原生應用:推出無涯·問知與無涯·問數等AI 原生應用,實現企業內部資訊檢索和數據分析,提高數據處理的效率和便利性。 9、支援多種模型和資料來源:支援第三方模型,無論是開源或商用,以及多種資料來源,包括個人知識庫、企業知識庫、財經類資料庫、法規資料庫等,提升資料處理的彈性與適應性。 基於這些,企業可以直接上傳多種類型的資料,產品將快速解析,形成企業自己的知識庫。不過,將更多企業內部的資料開發釋放並不是終點,孫元浩認為,提升語料品質是目前大模型在提升準確度上最大的挑戰。 「現在模型結構大家都不是秘密了,訓練方法也不是秘密了,只是沒有語料。語料存在於各種地方,因為工作非常巨大,都是巨大的體力活,這是目前最大的挑戰,不是之一,這是最大的挑戰。除此之外,在大模型落地實踐中,孫元浩認為現階段提升模型準確率的方法主要包括以下幾種:## 1.建立外掛知識庫:將企業的資料、文章等解析出來放到知識庫中,讓大模型參考知識庫的內容進行寫作或分析,這是一種快速提升模型準確率的方法。 2、微調模型:透過對大模型進行微調,使其能夠學習特定領域的知識和語言習慣,從而提高模型在該領域的準確率。 3、持續訓練:對於金融等領域,需要持續地將大量的語料餵給大模型,以提高模型的精準度和回答金融問題的能力。 4、提供語料開發工具:開發語料開發工具,幫助企業整理和清洗語料,將其轉換為適合大模型訓練的格式,從而提高模型的準確率。 5、結合多種方法:可以將以上幾種方法結合起來使用,如建構外掛知識庫的同時,對模型進行微調或持續訓練,以進一步提高模型的準確率。 孫元浩比喻道,過去一年一直講大模型是個“文科生”,因為它能寫作、生成;星環的目標是把大模型訓練成理科生,希望它能做數學分析,能夠懂自然科學的各個領域、各個學科。透過星環科技AI Infra工具,企業能夠準確、有效率地將擁有的多種來源的多模語料轉換為高品質的專業領域知識,讓企業建構知識障礙。