10月30日,崑崙萬維宣布開源百億級大語言模式「天工」Skywork-13B系列,並且罕見地配對開源了600GB、150B Tokens的超大高品質開源中文資料集。
崑崙萬維「天工」Skywork-13B系列目前包含130億參數的兩大模型:Skywork-13B-Base#模型、Skywork-13B-Math模型,它們在CEVAL, GSM8K等多個權威評測與基準測試上都展現了同等規模模型的最佳效果,其中文能力特別出色,在中文科技、金融、政務等領域表現均高於其他開源模型。
The download address for Skywork-13B (Model Scope) is available at: https://modelscope.cn/organization/skywork
Skywork-13B下載位址(Github): https:/ /github.com/SkyworkAI/Skywork
除模型開源外,Skywork-13B系列大模型也將開源600GB 、150B Tokens的高品質中文語料資料集Skypile/Chinese-Web-Text-150B,這是目前最大的開源中文資料集之一。
同時,崑崙萬維「天工」Skywork-13B系列大模型即將全面開放商用— —開發者無需申請,即可商用。
130億參數、兩大模型、最大中文資料集之一、全面開放商用。 崑崙萬維「天工」Skywork-13B系列大模型堪稱業界開源最徹底的百億高品質商用模式。
The open source of the Skywork-13B series of large models will provide the best technical support for the application of large models and the development of the open source community, reducing the commercial threshold for arge els), models promoting the implementation of artificial intelligence technology in various industries, and contributing to the construction of the artificial intelligence ecosystem. We will work together with the open source community to explore the unknown world and create# #兩大模型
五大特色
## Intelligence (AGI).最強參數表現:全面超越同等規模大模型
#本次開源的Skywork-13B系列模型在CEVAL, CMMLU, MMLU, GSM8K等幾大權威評估基準中全面超越LLaMA2-13B等開源大模型,在同等規模大模型間取得最佳效果。 (截止至10月25日資料)最多訓練資料:3.2T#高品質的多語言訓練資料
Skywork-13B系列大模型擁有130億參數、3.2兆高品質多語言訓練資料。模型的生成能力、創作能力及數學推理能力提昇明顯。最強中文語言建模能力:中文語言建模困惑度評測,超越所有中文開源模型
Skywork-13B系列大模型在中文語言建模方面非常出色,具備卓越的中文文創能力。在中文文本創作領域的評估中,Skywork-13B系列大模型展現了卓越的能力,特別是在科技、金融、政務、企業服務、文創、遊戲等領域,其表現優於其他開源模型
圖中展示了不同領域資料下對評估模型的困惑度,數值越低則代表模型在該領域的建模能力越強。結果顯示,天工13B在科技文章、電影、政務報告、遊戲、金融、通用領域均表現優異
最大中文開源資料集之一:150B Tokens高品質中文語料
Skywork-13B系列將配對開源600GB、150B Tokens的高品質中文語料資料集Skypile/Chinese-Web-Text-150B,這是目前最大的開源中文資料集之一。開發者可以最大程度地借鑒技術報告中大模型預訓練的過程和經驗,深度客製化模型參數,有針對性的進行訓練與最佳化。
最有誠意的開源商用:無需申請,即可實現商用
目前,在開源社群中,大部分中文模型並非完全可用於商業用途。通常情況下,開源社群使用者需要經歷繁瑣的商業授權申請流程。在某些情況下,商業授權的發放還會受到公司規模、所處行業、用戶數量等方面的明確規定,不得授權
崑崙萬維對Skywork-13B系列開源的開放性和可商用性高度重視,將授權流程做到極簡,取消對產業、公司規模、使用者等方面的限制,目的是幫助更多對中文大模型感興趣的使用者和企業在產業中不斷探索和進步。
Skywork-13B系列大型模型現已全面開放商用許可,使用者只需下載模型並同意並遵守《Skywork模型社群許可協議》,無需再次申請授權即可將大型模型用於商業用途。我們希望使用者能更方便地探索Skywork-13B系列大型模型的技術能力,並在不同場景下探索商業化應用
推動開源生態繁榮,讓更多開發者們參與到AIGC的技術發展中,在共創和共享中推動科技的提升。
在AI時代,開源生態建設蓬勃發展,成為實現AI和應用整合的重要環節。透過降低模型研發門檻和使用成本,最大化共享技術能力和經驗,讓更多企業和開發者參與這次由AI引領的科技變革中來。崑崙萬維的董事長兼CEO方漢是最早參與開源生態建設的資深開源專家之一,也是中文Linux開源的先驅之一。開源精神與AIGC技術的發展將在崑崙萬維的策略中完美融合
With its advanced prediction of technological development trends, Kunlun Technology has begun to deploy the AIGC field as early as 2020. So far, it has accumulated nearly three years of relevant engineering research and development experience and established industry-leading in-depth processing capabilities for pre-training data. Kunlun Wanwei has also made major breakthroughs in the field of artificial intelligence. It has now formed AI large models, AI search, AI With six major AI business matrices: games, AI music, AI animation, and AI social networking, it is one of the domestic companies with the strongest model technology and engineering capabilities, the most comprehensive layout, and is fully committed to the construction of open source communities.
以上是全新崑崙萬維「天工」13B系列大模型,輕鬆實現商用,無門檻的詳細內容。更多資訊請關注PHP中文網其他相關文章!