在業界都驚訝於百川智慧平均 28 天發布一款大模型的時候,這家公司並沒有停下腳步。
9 月 6 日下午的發表會上,百川智慧宣布正式開源微調後的 Baichuan-2 大模型。
中國科學院院士、清華大學人工智慧研究院名譽院長張鈸在記者會上。
這是百川自 8 月發布 Baichuan-53B 大模型後的另一個新發布。本次開源的模型包括 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 與其 4bit 量化版本,並且均為免費可商用。
除了模型的全面公開之外,百川智能此次還開源了模型訓練的 Check Point,並公開了 Baichuan 2 技術報告,詳細介紹了新模型的訓練細節。百川智能創辦人兼 CEO 王小川表示,希望此舉能幫助大模型學術機構、開發者和企業用戶深入了解大模型的訓練過程,更能推動大模型學術研究和社群的技術發展。
Baichuan 2 大模型開原連結:https://github.com/baichuan-inc/Baichuan2
技術報告:https://cdn.baichuan-ai.com/paper/ Baichuan2-technical-report.pdf
今天開源的模型相對於大模型而言體量“較小”,其中Baichuan2-7B-Base 和Baichuan2-13B-Base 均基於2.6 萬億高質量多語言資料進行訓練,在保留了上一代開源模型良好的生成與創作能力,流暢的多輪對話能力以及部署門檻較低等眾多特性的基礎上,兩個模型在數學、代碼、安全、邏輯推理、語意理解等能力有顯著提升。
「簡單來說,Baichuan7B 70 億參數模型在英文基準上已經能夠與LLaMA2 的130 億參數模型能力持平。因此,我們可以做到以小博大,小模型相當於大模型的能力,而在同體量上的模型可以得到更高的性能,全面超越了LLaMA2 的性能,」王小川介紹道。
其中Baichuan2-13B-Base 比較上一代13B 模型,數學能力提升49%,程式碼能力提升46%,安全能力提升37%,邏輯推理能力提升25%,語意理解能力提升15% 。
據介紹,在新的模型上,百川智慧的研究者從資料獲取到微調進行了許多最佳化。
「我們借鑒了之前做搜尋時的更多經驗,對大量模型訓練資料進行了多粒度內容品質打分,使用了2.6 億T 的語料級來訓練7B 與13B 的模型,並且加入了多語言的支持,」王小川表示。 「我們在千卡A800 叢集裡可以達到180TFLOPS 的訓練性能,機器利用率超過50%。在此之外,我們也完成了很多安全對齊的工作。」
本次開源的兩個模型在各大評測榜單上的表現優秀,在MMLU、CMMLU、GSM8K 等幾大權威評估基準中,以較大優勢領先LLaMA2,相比其他同等參數量大模型,表現也十分亮眼,性能大幅度優於LLaMA2 等同尺寸模型競品。
更值得一提的是,根據 MMLU 等多個權威英文評估基準評分 Baichuan2-7B 以 70 億的參數在英文主流任務上與 130 億參數量的 LLaMA2 持平。
7B 參數模型的 Benchmark 成績。
13B 參數模型的 Benchmark 成績。
Baichuan2-7B 和 Baichuan2-13B 不僅對學術研究完全開放,開發者也僅需郵件申請獲得官方商用許可後,即可以免費商用。
「除了模型發布以外,我們也希望對學術領域做更多的支持,」王小川表示。 「除了技術報告以外,我們也把Baichuan2 大模型訓練過程中的權重參數模型進行了開放。這對於大家理解預訓練,或者進行微調強化能夠帶來幫助。這也是在國內首次有公司能開放這樣的訓練過程。」
大模型訓練包含大量高品質資料取得、大規模訓練集群穩定訓練、模型演算法調優等多個環節。每個環節都需要大量人才、算力等資源的投入,從零到一完整訓練一個模型的高昂成本,阻礙了學術界對大模型訓練的深入研究。
百川智能本次開源了模型訓練從 220B 到 2640B 全過程的 Check Ponit。這對於科研機構研究大模型訓練過程、模型繼續訓練和模型的價值觀對齊等極具價值,可以推動國內大模型的科研進展。
先前,大部分開源模型只是對外公開自身的模型權重,很少提及訓練細節,開發者們只能進行有限的微調,很難深入研究。
百川智慧公開的 Baichuan 2 技術報告詳細介紹了 Baichuan 2 訓練的整個過程,包括資料處理、模型結構最佳化、Scaling law、流程指標等。
百川智能自成立之初,就將以開源方式協助中國大模型生態繁榮作為公司的重要發展方向。成立不到四個月,便相繼發布了Baichuan-7B、Baichuan-13B 兩款開源免費可商用的中文大模型,以及一款搜尋增強大模型Baichuan-53B,兩款開源大模型在多個權威評測榜單均名列前茅,目前下載量超過500 萬次。
上週,首批大模型公眾服務拍照落地是科技領域的重要新聞。在今年創立的大模型公司中,百川智能是唯一透過《生成式人工智慧服務管理暫行辦法》備案,可以正式向大眾提供服務的企業。
憑藉業界領先的基礎大模型研發和創新能力,此次開源的兩款Baichuan 2 大模型,得到了上下游企業的積極響應,騰訊雲、阿里雲、火山方舟、華為、聯發科等眾多知名企業均參加了本次發布會並與百川智能達成了合作。根據介紹,百川智能的大模型在 Hugging Face 上近一個月來的下載量已達 337 萬。
依照先前百川智慧的計劃,在今年他們還要發布千億參數大模型,並在明年第一季推出 「超級應用程式」。
以上是百川智能發表Baichuan2大模型:全面領先Llama2,訓練切片也開源了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)