首頁  >  文章  >  科技週邊  >  全新崑崙萬維「天工」13B系列大模型,輕鬆實現商用,無門檻

全新崑崙萬維「天工」13B系列大模型,輕鬆實現商用,無門檻

WBOY
WBOY轉載
2023-10-30 15:41:171305瀏覽

10月30日,崑崙萬維宣布開源百億級大語言模式「天工」Skywork-13B系列,並且罕見地配對開源了600GB150B Tokens的超大高品質開源中文資料集。

崑崙萬維「天工」Skywork-13B系列目前包含130億參數的兩大模型Skywork-13B-Base#模型、Skywork-13B-Math模型,它們在CEVAL, GSM8K等多個權威評測與基準測試上都展現了同等規模模型的最佳效果,其中文能力特別出色,在中文科技、金融、政務等領域表現均高於其他開源模型。

The download address for Skywork-13B (Model Scope) is available at: https://modelscope.cn/organization/skywork

Skywork-13B下載位址(Github): https:/ /github.com/SkyworkAI/Skywork

除模型開源外,Skywork-13B系列大模型也將開源600GB 150B Tokens的高品質中文語料資料集Skypile/Chinese-Web-Text-150B,這是目前最大的開源中文資料集之一。

同時,崑崙萬維「天工」Skywork-13B系列大模型即將全面開放商用— —開發者無需申請,即可商用。

130億參數、兩大模型、最大中文資料集之一、全面開放商用。 崑崙萬維「天工」Skywork-13B系列大模型堪稱業界開源最徹底的百億高品質商用模式。

The open source of the Skywork-13B series of large models will provide the best technical support for the application of large models and the development of the open source community, reducing the commercial threshold for arge els), models promoting the implementation of artificial intelligence technology in various industries, and contributing to the construction of the artificial intelligence ecosystem. We will work together with the open source community to explore the unknown world and create# #兩大模型

 領先行業崑崙萬維「天工」Skywork-13B系列包括兩大模型及150B高品質中文資料集。

Skywork-13B-Base
    模型是Skywork-13B的基礎模型,其經由3.2兆個多語言高品質資料訓練,在CEVAL, CMMLU, MMLU, GSM8K等評測與基準測試上都展現了同等規模模型的最佳效果。
  • Skywork-13B-Math
  • 模型經過專門的數學能力強化訓練,在GSM8K等資料集上取得了同等規模模型的最佳效果。
  • Skypile/Chinese-Web-Text-150B
  • 資料集。此資料集是根據我們經過精心過濾的資料處理流程從中文網頁篩選出的高品質資料。
  • 本次開源的資料集大小約為600GB,總token數量約為( 1500億),是目前最大得開源中文資料集之一。 In addition, the Skywork-13B series also discloses the evaluation methods, data ratio research, and training infrastructure optimization plans used in the model. It is hoped that these openhoped that the opencan- further inspire the community's understanding of large-scale model pre-training and promote the realization of Artificial General Intelligence (AGI).

五大特色

## Intelligence (AGI).

五大特色## ##全面超越超越超越代表

崑崙萬維「天工」Skywork-13B系列大模型在CEVAL, GSM8K等多個權威評測與基準測試上都展現了同等規模模型的最佳效果,其中文能力尤為出色,在中文科技、金融、政務等領域表現均高於其他開源模型。

Skywork-13B系列模型的五大特點:

最強參數表現:全面超越同等規模大模型 

#本次開源的Skywork-13B系列模型在CEVAL, CMMLU, MMLU, GSM8K等幾大權威評估基準中全面超越LLaMA2-13B等開源大模型,在同等規模大模型間取得最佳效果。 (截止至10月25日資料)

全新崑崙萬維「天工」13B系列大模型,輕鬆實現商用,無門檻

最多訓練資料:3.2T#高品質的多語言訓練資料

Skywork-13B系列大模型擁有130億參數、3.2兆高品質多語言訓練資料。模型的生成能力、創作能力及數學推理能力提昇明顯。

最強中文語言建模能力:中文語言建模困惑度評測,超越所有中文開源模型

Skywork-13B系列大模型在中文語言建模方面非常出色,具備卓越的中文文創能力。在中文文本創作領域的評估中,Skywork-13B系列大模型展現了卓越的能力,特別是在科技、金融、政務、企業服務、文創、遊戲等領域,其表現優於其他開源模型

全新崑崙萬維「天工」13B系列大模型,輕鬆實現商用,無門檻

圖中展示了不同領域資料下對評估模型的困惑度,數值越低則代表模型在該領域的建模能力越強。結果顯示,天工13B在科技文章、電影、政務報告、遊戲、金融、通用領域均表現優異

最大中文開源資料集之一:150B Tokens高品質中文語料

Skywork-13B系列將配對開源600GB、150B Tokens的高品質中文語料資料集Skypile/Chinese-Web-Text-150B,這是目前最大的開源中文資料集之一。開發者可以最大程度地借鑒技術報告中大模型預訓練的過程和經驗,深度客製化模型參數,有針對性的進行訓練與最佳化。

最有誠意的開源商用:無需申請,即可實現商用

目前,在開源社群中,大部分中文模型並非完全可用於商業用途。通常情況下,開源社群使用者需要經歷繁瑣的商業授權申請流程。在某些情況下,商業授權的發放還會受到公司規模、所處行業、用戶數量等方面的明確規定,不得授權

崑崙萬維對Skywork-13B系列開源的開放性和可商用性高度重視,將授權流程做到極簡,取消對產業、公司規模、使用者等方面的限制,目的是幫助更多對中文大模型感興趣的使用者和企業在產業中不斷探索和進步。

Skywork-13B系列大型模型現已全面開放商用許可,使用者只需下載模型並同意並遵守《Skywork模型社群許可協議》,無需再次申請授權即可將大型模型用於商業用途。我們希望使用者能更方便地探索Skywork-13B系列大型模型的技術能力,並在不同場景下探索商業化應用

推動開源生態繁榮,讓更多開發者們參與到AIGC的技術發展中,在共創和共享中推動科技的提升。

在AI時代,開源生態建設蓬勃發展,成為實現AI和應用整合的重要環節。透過降低模型研發門檻和使用成本,最大化共享技術能力和經驗,讓更多企業和開發者參與這次由AI引領的科技變革中來。崑崙萬維的董事長兼CEO方漢是最早參與開源生態建設的資深開源專家之一,也是中文Linux開源的先驅之一。開源精神與AIGC技術的發展將在崑崙萬維的策略中完美融合

##All in AGIAIGC

崑崙萬維的策略包括與AGI和AIGC合作

4月17日,崑崙萬維發布了中國第一個真正實現智慧湧現的國產大語言模型—「天工3.5」,並啟動邀請測試。

5月19日,北京市經濟與資訊化局公佈第一批《北京市通用人工智慧產業創新夥伴計畫成員名單》。崑崙萬維憑藉著在AIGC領域的前沿探索和投資佈局,成為第一批模型夥伴和投資夥伴。

8月23日,崑崙萬維發布了國內第一款AI搜尋產品,名為天工AI搜​​尋

9月1日,電腦視覺和機器學習領域的國際頂級專家顏水成教授正式加盟崑崙萬維,與崑崙萬維創始人周亞輝一起出任天工智能聯席CEO,並兼任崑崙萬維2050全球研究院院長,負責前沿技術的研究。

在騰訊優圖實驗室聯合廈門大學開展的多模態大語言模型評測中,崑崙萬維天工大模型在9月5日取得了綜合得分排名第一的成績

9月25日,崑崙萬維正式控股艾捷科芯,佈局AI晶片。

今天,崑崙萬維公司透過天工Skywork-13B系列大模型的開源行動,展現了對人工智慧生態系統持續投資的堅定決心

崑崙萬維集團介紹

2008年,崑崙萬維創立。 2015年,該公司在深交所上市。它從遊戲領域起家,如今已成為了一家集AII In AGI與AIGC等多元化業務於一體的企業。經過十餘年的發展,崑崙萬維一直致力於為全球用戶提供領先的網路產品和服務。目前,該公司正在積極探索人工智慧領域的無限可能性。現在,崑崙萬維逐漸建構了AGI與AIGC、海外資訊分發與元宇宙、投資三大業務板塊,業務覆蓋全球100多個國家和地區,全球平均月活躍用戶數接近4億

With its advanced prediction of technological development trends, Kunlun Technology has begun to deploy the AIGC field as early as 2020. So far, it has accumulated nearly three years of relevant engineering research and development experience and established industry-leading in-depth processing capabilities for pre-training data. Kunlun Wanwei has also made major breakthroughs in the field of artificial intelligence. It has now formed AI large models, AI search, AI With six major AI business matrices: games, AI music, AI animation, and AI social networking, it is one of the domestic companies with the strongest model technology and engineering capabilities, the most comprehensive layout, and is fully committed to the construction of open source communities.

以上是全新崑崙萬維「天工」13B系列大模型,輕鬆實現商用,無門檻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除