搜尋
首頁科技週邊人工智慧消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

李開復旗下AI公司零一萬物,又一位大模型選手登場:

90億參數Yi-9B

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

它號稱Yi系列中的「理科狀元」,「惡補」了代碼數學,同時綜合能力也沒落下。

在一系列類似規模的開源模型(包括Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5等)中,表現最佳。

老規矩,發布即開源,尤其對開發者友好#:

Yi-9B(BF 16) 和其量化版Yi- 9B(Int8)都能在消費級顯示卡上部署。

一塊RTX 4090、一塊RTX 3090就可以。

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

深度擴增階段增量訓練而成

零一萬物的Yi家族先前已經發布了Yi-6B和Yi-34B系列。

這兩者都是在3.1T token中英文資料上進行的預訓練,Yi-9B則在此基礎上,增加了0.8T token繼續訓練而成。

資料的截止日期是2023年6月

開頭提到,Yi-9B最大的進步在於數學和程式碼,那麼這倆能力究竟該如何提升呢?

零一萬物介紹:

單靠增加資料量並沒辦法達到預期。

靠的是先增加模型大小,在Yi-6B的基礎上增加至9B,再進行多階段資料增量訓練

首先,怎麼個模型大小增加法?

 一個前提是,團隊透過分析發現:

Yi-6B訓練得已經很充分,再怎麼新增更多token練效果可能也不會往上了,所以考慮擴增它的大小。 (下圖單位不是TB而是B)

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

怎麼增加?答案是深度擴增

零一萬物介紹:

對原模型進行寬度擴增會帶來更多的效能損失,透過選擇適當的layer對模型進行深度擴增後,新增layer的input/output cosine 越接近1.0,即擴增後的模型性能越能保持原有模型的性能,模型性能損失微弱。

依此思路,零一萬物選擇複製Yi-6B相對靠後的16層(12-28 層),組成了48層的Yi-9B。

實驗顯示,此方法比用Solar-10.7B模型複製中間的16層(8-24層)效能更優。

其次,怎麼個多階段訓練法?

答案是先增加0.4T包含文字和程式碼的數據,但數據比對與Yi-6B一樣。

然後增加另外的0.4T數據,同樣包括文字和程式碼,但重點增加程式碼和數學數據的比例。

(悟了,就和我們在大模型提問裡的訣竅「think step by step」思路一樣)

這兩步操作完成後,還沒完,團隊也參考兩篇論文(An Empirical Model of Large-Batch Training和Don't Decay the Learning Rate, Increase the Batch Size)的思路,優化了調參方法。

即從固定的學習率開始,每當模型loss停止下降時就增加batch size,使其下降不中斷,讓模型學習得更加充分。

最終,Yi-9B實際共包含88億參數,達成4k上下文長度。

Yi系列中代碼和數學能力最強

實測中,零一萬物使用greedy decoding的生成方式(即每次選擇機率值最大的單字)來進行測試。

參評模型為DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B和Gemma-7B:

(1)DeepSeek-Coder,來自國內的深度求索公司,其33B的指令調優版本人類評估超越GPT-3.5-turbo,7B版本性能則能達到CodeLlama-34B的性能。

DeepSeek-Math靠7B參數幹翻GPT-4,震撼整個開源社群。

(2)SOLAR-10.7B來自韓國的Upstage AI,2023年12月誕生,性能超越Mixtral-8x7B-Instruct。

(3)Mistral-7B則是首個開源MoE大模型,達到甚至超越了Llama 2 70B和GPT-3.5的水平。

(4)Gemma-7B來自谷歌,零一萬物指出:

其有效參數量其實和Yi-9B一個等級。

(兩者命名準則不一樣,前者只用了Non-Embedding參數,後者用的是全部參數量並向上取整)

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

結果如下。

首先在程式碼任務上,Yi-9B效能僅次於DeepSeek-Coder-7B,其餘四位全部被KO。

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

在數學能力上,Yi-9B表現僅次於DeepSeek-Math-7B,超越其餘四位。

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

綜合能力也不賴。

其性能在尺寸相近的開源模型中最好,超越了其餘全部五位選手。

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

最後,也測了常識與推理能力:

#結果是Yi-9B與Mistral-7B、SOLAR-10.7B和Gemma-7B不相上下。

以及語言能力,不只英文不錯,中文也是廣受好評:

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

#最最後,看完這些,有網友表示:已經迫不及待想試試了。

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

還有人則替DeepSeek捏了一把汗:

趕緊加強你們的「比賽」吧。全面主導地位已經沒有了==

消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強

傳送門在此:https://huggingface.co/01-ai/Yi-9B

以上是消費級顯示卡可用!李開復零一萬物發布並開源90億參數Yi模型,程式碼數學能力史上最強的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。