首頁  >  文章  >  科技週邊  >  揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相

揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相

WBOY
WBOY原創
2024-07-12 05:52:581046瀏覽

在 2024 年世界人工智慧大會的現場,許多人在一個攤位前排隊,只為讓 AI 大模型給自己在天庭「安排」一個差事。

揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相

流程:
  1. 提供個人照片
  2. 生成仙界形象照(參考《大鬧天宮》畫風)
  3. 互動式劇情選擇和交談環節答案
  4. 依照人格類型"安排" 天庭差事
  5. 體驗方式:

現場排隊

    線上體驗(掃描下方二維碼)
  • 🜎辰大星模型創業模型創投模型創投產品。與上影合作的AI 互動體驗《AI + 大鬧天宮》只是階梯星辰展示大模型魅力的開胃菜。在WAIC 期間,他們隆重推出了以下大招:
  • 揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相

    萬億參數MoE 大模型Step-2 正式版

  1. 影像產生大模型Step-1X
  2. Step-2 兆參數大模型
  3. 辰在3 月份與階躍星-4 的水平,在數理邏輯、程式設計、中文知識、英文知識和指令遵循等方面表現優異。
  4. Step-1.5V 多模態大模型
  5. 基於Step-2 模型,階躍星辰開發出了多模態大模型Step-1.5V,不僅具有強大的感知和視頻理解能力,還可根據圖像內容進行高階推理(如解答數學題、編寫程式碼、創作詩歌)。

Step-1X 圖像生成大模型

《AI + 大鬧天宮》中的圖像生成由Step-1X 模型完成,該模型針對中國元素進行了深度優化,並擁有出色的語義對齊和指令遵循能力。

階躍星辰已建立起涵蓋萬億參數 MoE 大模型和多模態大模型的完整大模型矩陣,成為大模型創業公司第一梯隊。這得益於他們對 Scaling Law 的堅持以及匹配的技術和資源實力。

從頭訓練的

Step-2 兆參數大模型

萬億參數量將顯著提升模型在數學、程式設計等領域的推理能力。 Step-2 相較於千億級模型,可解決更為複雜的數理邏輯和程式設計問題,也得到了基準評測的量化證實。

此外,它的中英文能力和指令跟隨能力也實現了明顯提升。
Step-2 之所以表現得如此優異,一方面得益於它龐大的參數量,另一方面也得益於它的訓練方法。
我們知道,訓練 MoE 模型主要有兩種方式。一種是 upcycle,即透過重新利用訓練過程的中間結果或已經訓練好的模型,以更有效率和更經濟的方式進一步提升模型效能。這種訓練方式算力需求低,訓練效率高,但訓練出來的模型往往上限較低。例如,在訓練MoE 模型時,如果多個專家模型是透過拷貝和微調相同的基礎模型得到的,那麼這些專家模型之間可能會存在高度相似性,這種同質化會限制MoE 模型的性能提升空間。
考慮到這些局限,階躍星辰選擇了另一種方式 —— 完全自主研發,從頭開始訓練。這種方式雖然訓練難度高、算力消耗大,但能獲得更高的模型上限。
具體來說,他們首先在 MoE 架構設計方面做了一些創新,包括部分專家共享參數、異質化專家設計等。前者可以確保某些通用能力在多個專家之間共享,但同時每個專家仍然保留其獨特性。後者透過設計不同類型的專家模型,使每個專家在特定任務上都有獨特的優勢,從而增加模型的多樣性和整體性能。
基於這些創新,Step-2 不僅總參數量達到了萬億級別,每次訓練或推理所激活的參數量也超過了市面上大部分的密集模型。
此外,從頭訓練這樣一個萬億參數模型對於系統團隊也是很大的考驗。好在,階躍星辰系統團隊擁有豐富的系統建置與管理實務經驗,這讓他們在訓練過程中順利突破了6D 並行、極致顯存管理、完全自動化運維等關鍵技術,成功完成了Step-2 的訓練。站在 Step-2 肩膀上的 Step-1.5V 多模態大模型
三個月前,階躍星辰發布了 Step-1V 多模態大模型。最近,隨著 Step-2 正式版的亮相,這個多模態大模型也升級到了 1.5 版本。
Step-1.5V 主要著重多模態理解能力。與先前的版本相比,它的感知能力大大提升,能夠理解複雜圖表、流程圖,準確感知物理空間複雜的幾何位置,還能處理高解析度和極限長寬比的影像。

揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相

此外,它還能理解視頻,包括視頻中的物體、人物、環境以及整體氛圍和人物情緒。

前面提到,在 Step-1.5V 的誕生過程中,Step-2 功不可沒。這指的是,在Step-1.5V 進行RLHF(基於人類回饋的強化學習)訓練過程中,Step-2 是作為監督模型來用的,這相當於Step-1.5V 有了一個萬億參數的模型當老師。在這位老師的指導下,Step-1.5V 的推理能力大大提升,能夠根據圖像內容進行各類高階推理任務,如解答數學題、編寫程式碼、創作詩歌等。這也是 OpenAI GPT-4o 最近所展現的能力之一,這項能力讓外界對於它的應用前景充滿了期待。

多模態的生成能力主要體現在 Step-1X 這個新模型上。與一些同類模型相比,它有更好的語義對齊和指令跟隨能力,同時針對中國元素做了深度優化,更適合國人的美學風格。

基於此模型打造的《大鬧天宮》AI 互動體驗的背後融合了影像理解、風格遷移、影像生成、劇情創作等多種能力,豐富立體地展現了階躍星辰業界領先的多模態水平。 例如,在初始角色生成時,系統首先會判斷使用者上傳的照片是否符合「捏臉」要求,然後用非常《大鬧天宮》的語言風格靈活給予回饋。這裡就體現了模型的圖片理解能力和大語言模型的能力。在大模型技術加持下,這款遊戲就讓玩家獲得了和傳統線上 H5 遊戲完全不同的互動體驗。因為所有的互動問題、使用者形象、分析結果都是模型即時學習特徵後產生的,真正做到了千人千面和無限劇情的可能。

揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相

這些優異的表現離不開階躍星辰全鏈路自研的 DiT 模型架構(OpenAI 的 Sora 也是 DiT 架構)。為了讓更多人用上模型,階躍星辰為 Step-1X 設計了 600M、2B、8B 三種不同的參數量,以滿足不同算力場景的需求。

在 3 月的亮相活動中,階躍星辰創始人姜大昕曾明確指出,他認為大模型的演進會經歷三個階段: 

  1. 在第一個階段,語言、視覺、聲音等各個模態是獨立發展的,每個模態的模型專注於學習和表徵其特定模態的特徵。
  2. 在第二階段,不同的模態開始走向融合。但這個融合並不徹底,理解和生成任務依然是分開的,這造成模型理解能力強但生成能力弱,或者反之。
  3. 在第三個階段,生成和理解被統一在一個模型裡,然後去和機器人充分結合,形成具身智能。接下來,具身智能去主動探索物理世界,然後逐步演變成世界模型,進而實現 AGI。

這也是姜大昕等人從創業之初就在堅持的路線。在這條路上,「兆參數」和「多模融合」缺一不可,Step-2 和 Step-1.5V、Step-1X 都是他們在這條路上達成的節點。

而且,這些節點是一環套一環的。以 OpenAI 為例,他們在年初發布的視訊生成模型 Sora 使用了 OpenAI 的內部工具(很可能是 GPT-4V)進行標註;而 GPT-4V 又是以 GPT-4 相關技術為基礎訓練出來的。就目前來看,單模態模型的強大能力會為多模態打下基礎;多模態的理解又會為生成打下基礎。 靠著這樣的模型矩陣,OpenAI 實現了左腳踩右腳。而階躍星辰正在國內印證這條路線。

我們期待這家公司為國內大模型領域帶來更多驚喜。

以上是揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn