2023 年,大模型的落地按下加速鍵,文生圖便是最火熱的應用方向之一。 自從 Stable Diffusion 誕生以來,海內外的文生圖大模型不斷湧現,一時有「神仙打架」之感。每一次技術迭代,都帶來了模型生成效果和速度的快速提升。 就在今天,騰訊混元大模型也宣布了最新進展:文生圖能力正式上線。 一手試用,我們就看到了混幣大模型對於博大精深的中餐文化的理解。這裡選取了讓許多大模型犯難的「螞蟻上樹」,但混元輕鬆產生:
問題來了,現在的文生圖大模型這麼卷,混元大模型還有沒有其他特別的優勢? 根據官方介紹,如果從演算法、模型方面來講,目前文生圖大模型還存在一些挑戰,例如語意理解不夠精準、生成圖片結構不合理、畫面細節不夠質感不高等問題。 騰訊很早就開始在廣告場景進行 AI 自動產生影像的探索,相關的累積不可謂不深。這次混元大模型升級的文生圖能力,恰恰希望解決「語意、內容、質感」這三點難題。 據介紹,相較於其他大模型,騰訊混元的文生圖在人像真實感、場景真實感上有比較明顯的優勢,同時,在中國風景、動漫遊戲等場景等生成上有較好的表現。 做好「文生圖」這件事,對「文」的充分理解至關重要。 在語意理解方面,混元文生圖模型採用了中英文雙語細粒度的模型,同時基於中英文雙語建模實現雙語理解,且透過最佳化演算法提升了模型對細節的感知能力與生成效果。 在此之前,像Stable Diffusion 這樣的熱門模型雖然支援一定程度的中文,但其核心資料集LAION-5B 仍以西方化內容為主,對中國的語言、美食、文化、習俗都理解不夠。 而混元文生圖模型是中文原生的文生圖模型,無論使用者輸入的中文詩句或成語,都可以直接要求其創作畫作。 在內容合理性方面,混元文生圖透過增強演算法模型的影像二維空間位置感知能力,並將人體骨架和人手結構等先驗資訊引入生成過程中,讓生成的影像結構更合理,改善了AI 生成人體結構和手部不合理的問題。 在畫面質感方面,混元文生圖基於多模型融合的方法,提升生成質感。經過優化後,混元文生圖的人像模型(髮絲、皺紋等)效果提升了 30%,場景模型(草木、波紋等)效果提升了 25%。 這三個面向的技術優勢,對於混元大模型文生圖產品體驗的提升是顯而易見的。 為了驗證上述能力,本站設定了一些題目,第一時間對混元大模型進行了摸底測試。 鑑於混元是中文原生模型,自然也比其他同類產品更懂「古代中國的語言」,我們首先讓它根據古詩詞進行繪畫。 我們選取一句非常有意願的古詩「醉後不知天在水,滿船清夢壓星河」來測試,看混元大模型能否生成極具畫面感的圖。 在《泊船瓜洲》這首詩中,一句「春風又綠江南岸,明月何時照我還」,寫出了無數遊子的鄉愁。混元的生成結果,提取出「春光」、「水岸」、「明月」等意象進行有機組合,讓人看到之後彷彿置身詩句場景之中: 接著是有趣的「中國菜畫」環節,來一道「魚香肉絲」經典考題:從讓人san 值狂掉的中餐繪畫,到現在看圖下飯的水準,我們也能感受到文生圖技術的不斷進化。 接下來看看在業界公認的「人像真實感」難題上,混元做得如何:我們知道最初Midjourney 爆火,就是因為下面這張情侶照片,讓人無法分辨這竟然無AI 生成的。現在,我們檢視一下混元大模型生成「照騙」的能力。使用的 Prompt 是:你覺得真實感如何?在我們看來,Prompt 中提到的細節拉滿。 這也就是騰訊重點強調的:混元大模型透過最佳化演算法提升了對細節的感知能力與生成效果。這種能力,在許多具體的場景中才得以體現。 例如在動畫場景中,生成「一頭小鹿在森林中奔跑、帶動落葉飛起、月亮很亮很大、小鳥在空中飛翔,氛圍感, CG 風格,側面視角」。 我們給到混元大模型的Prompt 是「生成3D,動畫風格,1 個女孩,金色頭髮,微笑,短髮,城市背景」: 我們了解到,除了創新模型演算法,騰訊混元大模型實現這樣接中文地氣的文生圖效果,其背後還離不開高質量的圖文匹配數據、自研的機器學習框架以及強大的算力基礎設施。 騰訊混元大模型已經形成了從模型演算法到機器學習框架再到 AI 基礎設施的全鏈路自研技術路徑。多層次的技術沉澱,意味著大模型的進化需要一步一腳印,從實踐出發,在實踐中提升。 對於任何 AI 特別是大模型而言,資料都是不可或缺的三大要素之一。大模型文生圖功能亦是如此,圖文資料尤其是圖文之間的配對資料對產生效果的影響舉足輕重。 但是網路上已有資料並不是都能拿來即用的,其中很大的問題是文字對圖片的描述不一定準確,這就導致大多數圖文匹配資料品質比較差。如果拿來用,即使訓練時間很長,模型生成效果仍達不到預期,也會影響生成品質的穩定性和後續的迭代效率。 因此,提升圖文資料品質成為保證文生圖效果的「第一道關」。這時候往往需要透過工程化的方式提升資料質量,支撐模型訓練、最佳化和升級,構築演算法模型的護城河。 面對圖文配對資料問題,騰訊混元文生圖團隊的因應策略是這樣的:首先細緻地完善中文prompt,提升圖文相關性,最大化資料品質;然後採取訓練資料分層、分級的策略,逐步優化模型,最大化資料效果;最後建造資料飛輪,它是大模型快速迭代的關鍵。團隊基於線上使用者使用大模型的回饋,自動化建立訓練數據,加快模型迭代,最大化數據效率。 資料品質、效果和效率提上去了,這就為良好的文生圖效果打下了基礎。而接下來要講的機器學習框架也同樣重要。強大的機器學習架構或平台會大幅提升開發者建置、訓練和部署模型的速度和效率。騰訊針對大模型訓練和推理場景,自研了 Angel 機器學習平台,主要包括負責訓練的 AngelPTM 和負責推理的 AngelHCF 兩大部分。 其中AngelPTM 採用ZeRO-Cache 最佳化策略,成為超大模型訓練利器,它透過儲存管理擴大單機模型容量,透過多流非同步提高資源利用率,透過顯存管理提高顯存效率。另外利用 4D 並行提高可用顯存上限,減少千卡通訊壓力,釋放計算潛能。自動續訓機制支援千卡故障自動容錯,減少中斷時間。模型訓練情況也在即時監控之下,協同演算法優化模型訓練方向。 目前,AngelPTM 基於業界首創的ZeRO-Cache 機制4D 並行實現了千億混元基座模型的高速訓練,訓練速度相比主流開源框架(DeepSpeed -Chat)提升1 倍。 AngelHCF 主要從客製化多樣化服務策略、平行策略、框架加速(涵蓋常用GPU 加速方法)、模型壓縮(支援業界常用壓縮方法)與高效模型Debug 能力五個層面提升大模型的推理表現。推理速度相比業界主流架構(FasterTransformer)提升 1.3 倍。 騰訊表示,其 Angel 機器學習平台具備了領先性能,能夠幫助提供更好的基建體系,助力大模型們高速運行。這使得混元大模型產生高質圖片的同時,生成速度也大大改善。 擁有了高品質的資料、高效率的機器學習框架,大模型的持續運作也面臨著算力層面的考驗。畢竟,大模型時代,算力為王。 騰訊混元文生圖功能離不開騰訊雲提供的強大算力基礎設施。 2023 年4 月,騰訊雲端發布新一代HCC 高效能運算集群,採用最新一代星星海自研伺服器,並基於自研網路和儲存架構,實現了3.2T 超高互聯頻寬、TB 級吞吐能力和千萬級IOPS。新一代集群算力效能較前代提升了 3 倍,較傳統算力集群方案提升 12 倍以上。 夯實底層硬體的同時,上層軟體能力也要並進。新一代 HCC 集群整合了騰訊雲自研的 TACO 訓練加速引擎,從網路協定、通訊策略、AI 框架、模型編譯層面做了大量系統級最佳化。這套全生態的訓練加速方案不僅可以幫助客戶降低 AI 優化門檻,提升 AI 訓練性能,還使訓練調校和算力成本大大降低。 看起來,制約大模型的三大要素演算法、資料和算力,在騰訊混元大模型這裡都不成問題了。自然而然,文生圖品質和效果也得到了保障。 今天我們看到的混合大模型文生圖能力,並非一蹴而就,而是一個實實在在的演進過程。 在上個月舉行的 2023 騰訊全球數位生態大會上,騰訊混元大模型正式亮相。騰訊集團副總裁蔣傑當時表示,混元永遠在路上。騰訊會一直演進混元的能力,並希望每個月都會帶給大家驚喜。 目前,騰訊已有180 個內部業務存取混元大模型,包括包括騰訊會議、騰訊文件、企業微信、騰訊廣告和微信搜一搜等。同時來自零售、教育、金融、醫療、傳媒、交通、政務等多個行業的客戶也透過騰訊雲調用騰訊混元 API,應用領域涉及智慧問答、內容創作、數據分析、程式碼助理等多個場景。 這次開放的文生圖能力就是騰訊混元大模型帶給我們的最大驚喜,展示其在影像自動生成領域的領先能力。當然,騰訊混元文生圖也在逐漸進化中,後續會發展出更多文生圖相關以及圖生圖功能。我們可以狠狠期待一波了。目前,混元文生圖能力已經嵌入了騰訊廣告場景中,例如產生商品廣告或廣告配圖。在廣告業務下的多輪測評中,騰訊混元文生圖的案例優秀率和廣告主採納率分別達到 86% 和 26%,均高於同類模型。 我們先來看下面這個範例,要求混元大模型產生一個飯店房間。從效果來看,升級後混元文生圖效果明顯更好,設計感、品質感提升很大,細節更豐富。即使與 Midjourney 比較一番,效果也不相上下。 人物類別生成場景也有類似的效果。升級後混元生成的人像真實感更強,例如臉部膚色、皺紋等細節。 廣告場景之外,騰訊內部也不斷探索其他文生圖的需求場景,例如遊戲場景中產生遊戲元素和遊戲角色、內容場景中生成小說配圖、插圖,雲端業務場景中將混元能力開放給不同產業的客戶。 大浪淘沙,再強悍的模型,也要讓更多人用上並持續獲得回饋,才有可能百尺竿頭更進一步。 可以預見,未來騰訊產品中將迎來混元文生圖能力的大爆發,使用者也將體驗更多 AIGC 帶來的魅力。 以上是騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析的詳細內容。更多資訊請關注PHP中文網其他相關文章!