首頁 >科技週邊 >人工智慧 >揭秘：階躍星辰萬億MoE+多模態大模型矩陣亮相

揭秘：階躍星辰萬億MoE+多模態大模型矩陣亮相

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創: 2024-07-12 05:52:581157瀏覽

在 2024 年世界人工智慧大會的現場，許多人在一個攤位前排隊，只為讓 AI 大模型給自己在天庭「安排」一個差事。

流程：

提供個人照片
生成仙界形象照（參考《大鬧天宮》畫風）
互動式劇情選擇和交談環節答案
體驗方式：

現場排隊

🜎辰大星模型創業模型創投模型創投產品。與上影合作的AI 互動體驗《AI + 大鬧天宮》只是階梯星辰展示大模型魅力的開胃菜。在WAIC 期間，他們隆重推出了以下大招：
萬億參數MoE 大模型：Step-2 正式版

千

影像產生大模型：Step-1X
Step-2 兆參數大模型
Step-1.5V 多模態大模型

Step-1X 圖像生成大模型

《AI + 大鬧天宮》中的圖像生成由Step-1X 模型完成，該模型針對中國元素進行了深度優化，並擁有出色的語義對齊和指令遵循能力。

階躍星辰已建立起涵蓋萬億參數 MoE 大模型和多模態大模型的完整大模型矩陣，成為大模型創業公司第一梯隊。這得益於他們對 Scaling Law 的堅持以及匹配的技術和資源實力。

從頭訓練的

Step-2 兆參數大模型

萬億參數量將顯著提升模型在數學、程式設計等領域的推理能力。 Step-2 相較於千億級模型，可解決更為複雜的數理邏輯和程式設計問題，也得到了基準評測的量化證實。

此外，它的中英文能力和指令跟隨能力也實現了明顯提升。
Step-2 之所以表現得如此優異，一方面得益於它龐大的參數量，另一方面也得益於它的訓練方法。
我們知道，訓練 MoE 模型主要有兩種方式。一種是 upcycle，即透過重新利用訓練過程的中間結果或已經訓練好的模型，以更有效率和更經濟的方式進一步提升模型效能。這種訓練方式算力需求低，訓練效率高，但訓練出來的模型往往上限較低。例如，在訓練MoE 模型時，如果多個專家模型是透過拷貝和微調相同的基礎模型得到的，那麼這些專家模型之間可能會存在高度相似性，這種同質化會限制MoE 模型的性能提升空間。
考慮到這些局限，階躍星辰選擇了另一種方式 —— 完全自主研發，從頭開始訓練。這種方式雖然訓練難度高、算力消耗大，但能獲得更高的模型上限。
具體來說，他們首先在 MoE 架構設計方面做了一些創新，包括部分專家共享參數、異質化專家設計等。前者可以確保某些通用能力在多個專家之間共享，但同時每個專家仍然保留其獨特性。後者透過設計不同類型的專家模型，使每個專家在特定任務上都有獨特的優勢，從而增加模型的多樣性和整體性能。
基於這些創新，Step-2 不僅總參數量達到了萬億級別，每次訓練或推理所激活的參數量也超過了市面上大部分的密集模型。
此外，從頭訓練這樣一個萬億參數模型對於系統團隊也是很大的考驗。好在，階躍星辰系統團隊擁有豐富的系統建置與管理實務經驗，這讓他們在訓練過程中順利突破了6D 並行、極致顯存管理、完全自動化運維等關鍵技術，成功完成了Step-2 的訓練。站在 Step-2 肩膀上的 Step-1.5V 多模態大模型
三個月前，階躍星辰發布了 Step-1V 多模態大模型。最近，隨著 Step-2 正式版的亮相，這個多模態大模型也升級到了 1.5 版本。
Step-1.5V 主要著重多模態理解能力。與先前的版本相比，它的感知能力大大提升，能夠理解複雜圖表、流程圖，準確感知物理空間複雜的幾何位置，還能處理高解析度和極限長寬比的影像。

揭秘：階躍星辰萬億MoE+多模態大模型矩陣亮相

此外，它還能理解視頻，包括視頻中的物體、人物、環境以及整體氛圍和人物情緒。

前面提到，在 Step-1.5V 的誕生過程中，Step-2 功不可沒。這指的是，在Step-1.5V 進行RLHF（基於人類回饋的強化學習）訓練過程中，Step-2 是作為監督模型來用的，這相當於Step-1.5V 有了一個萬億參數的模型當老師。在這位老師的指導下，Step-1.5V 的推理能力大大提升，能夠根據圖像內容進行各類高階推理任務，如解答數學題、編寫程式碼、創作詩歌等。這也是 OpenAI GPT-4o 最近所展現的能力之一，這項能力讓外界對於它的應用前景充滿了期待。

多模態的生成能力主要體現在 Step-1X 這個新模型上。與一些同類模型相比，它有更好的語義對齊和指令跟隨能力，同時針對中國元素做了深度優化，更適合國人的美學風格。

基於此模型打造的《大鬧天宮》AI 互動體驗的背後融合了影像理解、風格遷移、影像生成、劇情創作等多種能力，豐富立體地展現了階躍星辰業界領先的多模態水平。例如，在初始角色生成時，系統首先會判斷使用者上傳的照片是否符合「捏臉」要求，然後用非常《大鬧天宮》的語言風格靈活給予回饋。這裡就體現了模型的圖片理解能力和大語言模型的能力。在大模型技術加持下，這款遊戲就讓玩家獲得了和傳統線上 H5 遊戲完全不同的互動體驗。因為所有的互動問題、使用者形象、分析結果都是模型即時學習特徵後產生的，真正做到了千人千面和無限劇情的可能。

揭秘：階躍星辰萬億MoE+多模態大模型矩陣亮相

這些優異的表現離不開階躍星辰全鏈路自研的 DiT 模型架構（OpenAI 的 Sora 也是 DiT 架構）。為了讓更多人用上模型，階躍星辰為 Step-1X 設計了 600M、2B、8B 三種不同的參數量，以滿足不同算力場景的需求。

在 3 月的亮相活動中，階躍星辰創始人姜大昕曾明確指出，他認為大模型的演進會經歷三個階段：

在第一個階段，語言、視覺、聲音等各個模態是獨立發展的，每個模態的模型專注於學習和表徵其特定模態的特徵。
在第二階段，不同的模態開始走向融合。但這個融合並不徹底，理解和生成任務依然是分開的，這造成模型理解能力強但生成能力弱，或者反之。
在第三個階段，生成和理解被統一在一個模型裡，然後去和機器人充分結合，形成具身智能。接下來，具身智能去主動探索物理世界，然後逐步演變成世界模型，進而實現 AGI。

這也是姜大昕等人從創業之初就在堅持的路線。在這條路上，「兆參數」和「多模融合」缺一不可，Step-2 和 Step-1.5V、Step-1X 都是他們在這條路上達成的節點。

而且，這些節點是一環套一環的。以 OpenAI 為例，他們在年初發布的視訊生成模型 Sora 使用了 OpenAI 的內部工具（很可能是 GPT-4V）進行標註；而 GPT-4V 又是以 GPT-4 相關技術為基礎訓練出來的。就目前來看，單模態模型的強大能力會為多模態打下基礎；多模態的理解又會為生成打下基礎。 靠著這樣的模型矩陣，OpenAI 實現了左腳踩右腳。而階躍星辰正在國內印證這條路線。

我們期待這家公司為國內大模型領域帶來更多驚喜。

以上是揭秘：階躍星辰萬億MoE+多模態大模型矩陣亮相的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构人工智能自动化 gpt agi

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：ACL 2024 | 引領學術視聽研究，上海交大、清華大學、劍橋大學、上海AILAB聯合發布學術視聽資料集M3AV下一篇：ACL 2024 | 引領學術視聽研究，上海交大、清華大學、劍橋大學、上海AILAB聯合發布學術視聽資料集M3AV

看更多