搜尋
首頁科技週邊人工智慧2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

千元機也能本地運作。

近期,人們在最佳化和部署方面取得了成果,伴隨著大模型向大體量方向發展。

2月1日,面壁智慧聯合清華NLP實驗室在北京正式發表了旗艦端側大模型「面壁MiniCPM」。這款新一代大模型被譽為「性能小鋼砲」,不僅能夠直接在終端部署,也具備同等程度最強的多模態能力。這將為用戶提供更快速、更有效率的智慧應用體驗。

面壁智慧最新推出的 MiniCPM 2B 模型具有僅有 20 億的參數量,並透過使用 1T token 的精選資料進行訓練。與2018 年發布的BERT 模型相比,這個模型在參數量上相當,但面壁智能在性能優化和成本控制方面進行了極致的努力,使得該模型能夠在性能上實現了“越級打怪”的效果。

面壁智慧共同創辦人、CEO 李大海將新模型與業界知名開源大模式 Mistral-7B 進行了對比,MiniCPM 2B 在多個主流評測榜單上表現全面超越了後者。

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

與微軟近期提出的「小模型」Phi-2 相比,MiniCPM 也有很大優勢。

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

李大海指出,壁面智慧的新模型在能力方面具備了越級實現的潛力,可以實現13B、30B甚至40B模型的能力。使用最接近使用者體驗的評測清單MT-Bench進行評測時,MiniCPM獲得了7分的成績(相比之下,GPT-4-Turbo獲得了9分)。

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

在現場,面壁智慧也展現了 MiniCPM 的實際應用效果。儘管參數量較小,但該模型具備大模型應有的文字翻譯、角色扮演等多種能力,並且擁有豐富的知識。即使是難度較高的程式碼解釋任務,模型也能應付自如。

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

因為能夠部署在端側,當面臨一些突發事件時,MiniCPM 也可以給人們提供及時幫助:

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

最近,各家手機廠商紛紛提出了端側大模型,在把大語言模型壓縮到較小體量之後,我們就能用它連接更多場景,在算力、內存受限的情況下獲得更高程度的智能。相較之下,面壁智慧提出的新技術更加輕便,可適用於更低配置,或較早型號的手機。

據面壁智能介紹,MiniCPM 端側模型經歷了Int4 量化後壓縮了75% 體量,只佔用2G 內存,與此同時性能幾乎沒有損失,因此已在各類常見型號的手機上實現了跑通。

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

因為支援行動裝置 CPU 的推理,MiniCPM 可以很大程度上節約使用成本。面壁智慧為我們算了一筆帳:一台搭載驍龍 855 的手機使用 MiniCPM,一塊錢電費可處理 170 萬 token,這個價格僅為雲端運行的 Mistral-Medium 的 1%。

除了端側模型,面壁智慧也展示了其在多模態大模型方面的探索,並開源了 12B 參數量的 OmniLMM。在發表會上,面壁智慧示範了 Gemini 發佈時同款的石頭剪刀布 ​​demo。用英文向 AI 提問:我正在玩什麼遊戲?大模型會回答:石頭剪子佈。

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

同時,OmniLMM 也可以認出人類的手勢,也能告訴你如果要贏應該出什麼。

OmniLMM 也可以理解許多圖片中的資訊並進行推理,如地標建築、電視台的台標、人們組織的活動等內容。

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

看來,我們距離真正多模態的大模型,新形態的應用已經不遠了。

面壁智能大模型極致性能的背後,源自於該公司長期以來的技術累積。自 2021 年,面壁智慧就建構了一個高效的技術棧,集中在 Infra、演算法和資料方法論三個方向。其中,自研的 BMTrain 高效訓練架構至關重要。

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

在演算法層面上,面壁智慧也累積了模型沙盒體系,把大模型從煉丹提升到了實驗科學的程度,在理論上不斷尋找超參數和規模的最優解,如最優的batch size、所有尺寸模型通用的超參數配置。

目前,面壁智慧已累積了大量高品質的數據。在昨天的發布後,面壁智慧開源了自身的新一代大模型系列(包含 MiniCPM-SFT / DPOMiniCPM-V & MiniCPM-SFT / DPO-int4),以及訓練 MiniCPM 兩個階段的資料配方以供業界參考。

開源位址(含技術報告):

MiniCPM GitHub:https://github.com/OpenBMB/MiniCPM

OmniLMM GitHub:https://github.com /OpenBMB/OmniLMM

面壁智能源自於清華NLP 實驗室,是國內較早開展大模型研究的團隊之一,其在2018 年發布了全球首個基於知識指導的預訓練模型ERNIE 。 2022 年 8 月開始公司化運作的面壁智能,去年經歷了兩輪融資,其推出的應用「面壁露卡」也拿到了網信辦第二批大模型備案。

目前,面壁智慧已經組成 100 餘人的科學研究團隊,其中 80% 人員來自清北,平均年齡 28 歲。

2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源

面壁智慧正在建立大模型 Agent 的雙引擎策略,希望能建構出更小規模、更快速度、更低成本的解決方案。

今年,面壁智慧也將加快速度迭代新技術。 「我們會在春節之後不斷發布 MiniCPM 的新版本,性能還會進一步提升。我們要給大家春節的休息時間,」劉知遠表示。

以上是2B參數效能超Mistral-7B:面壁智慧多模態端側模型開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器