搜尋
首頁科技週邊人工智慧騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析

騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析

Oct 26, 2023 pm 09:13 PM
產業混元大模型文生圖大模型

2023 年,大模型的落地按下加速鍵,文生圖便是最火熱的應用方向之一。

自從 Stable Diffusion 誕生以來,海內外的文生圖大模型不斷湧現,一時有「神仙打架」之感。每一次技術迭代,都帶來了模型生成效果和速度的快速提升。

就在今天,騰訊混元大模型也宣布了最新進展:文生圖能力正式上線。

一手試用,我們就看到了混幣大模型對於博大精深的中餐文化的理解。這裡選取了讓許多大模型犯難的「螞蟻上樹」,但混元輕鬆產生:

騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析

問題來了,現在的文生圖大模型這麼卷,混元大模型還有沒有其他特別的優勢?

根據官方介紹,如果從演算法、模型方面來講,目前文生圖大模型還存在一些挑戰,例如語意理解不夠精準、生成圖片結構不合理、畫面細節不夠質感不高等問題。

騰訊很早就開始在廣告場景進行 AI 自動產生影像的探索,相關的累積不可謂不深。這次混元大模型升級的文生圖能力,恰恰希望解決「語意、內容、質感」這三點難題。

據介紹,相較於其他大模型,騰訊混元的文生圖在人像真實感、場景真實感上有比較明顯的優勢,同時,在中國風景、動漫遊戲等場景等生成上有較好的表現。

上手實測:混元文生圖,有什麼不一樣?

做好「文生圖」這件事,對「文」的充分理解至關重要。

語意理解方面,混元文生圖模型採用了中英文雙語細粒度的模型,同時基於中英文雙語建模實現雙語理解,且透過最佳化演算法提升了模型對細節的感知能力與生成效果。

在此之前,像Stable Diffusion 這樣的熱門模型雖然支援一定程度的中文,但其核心資料集LAION-5B 仍以西方化內容為主,對中國的語言、美食、文化、習俗都理解不夠。

而混元文生圖模型是中文原生的文生圖模型,無論使用者輸入的中文詩句或成語,都可以直接要求其創作畫作。

內容合理性方面,混元文生圖透過增強演算法模型的影像二維空間位置感知能力,並將人體骨架和人手結構等先驗資訊引入生成過程中,讓生成的影像結構更合理,改善了AI 生成人體結構和手部不合理的問題。

畫面質感方面,混元文生圖基於多模型融合的方法,提升生成質感。經過優化後,混元文生圖的人像模型(髮絲、皺紋等)效果提升了 30%,場景模型(草木、波紋等)效果提升了 25%。

這三個面向的技術優勢,對於混元大模型文生圖產品體驗的提升是顯而易見的。

為了驗證上述能力,本站設定了一些題目,第一時間對混元大模型進行了摸底測試。

鑑於混元是中文原生模型,自然也比其他同類產品更懂「古代中國的語言」,我們首先讓它根據古詩詞進行繪畫。

我們選取一句非常有意願的古詩「醉後不知天在水,滿船清夢壓星河」來測試,看混元大模型能否生成極具畫面感的圖。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
在《泊船瓜洲》這首詩中,一句「春風又綠江南岸,明月何時照我還」,寫出了無數遊子的鄉愁。混元的生成結果,提取出「春光」、「水岸」、「明月」等意象進行有機組合,讓人看到之後彷彿置身詩句場景之中:
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
接著是有趣的「中國菜畫」環節,來一道「魚香肉絲」經典考題:
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
從讓人san 值狂掉的中餐繪畫,到現在看圖下飯的水準,我們也能感受到文生圖技術的不斷進化。

接下來看看在業界公認的「人像真實感」難題上,混元做得如何:

我們知道最初Midjourney 爆火,就是因為下面這張情侶照片,讓人無法分辨這竟然無AI 生成的。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
                               用midjourney v5 生成的情侶圖

現在,我們檢視一下混元大模型生成「照騙」的能力。使用的 Prompt 是:
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
你覺得真實感如何?在我們看來,Prompt 中提到的細節拉滿。

這也就是騰訊重點強調的:混元大模型透過最佳化演算法提升了對細節的感知能力與生成效果。這種能力,在許多具體的場景中才得以體現。

例如在動畫場景中,生成「一頭小鹿在森林中奔跑、帶動落葉飛起、月亮很亮很大、小鳥在空中飛翔,氛圍感, CG 風格,側面視角」。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
是特別像是小時候看的動畫中的畫面?

此外,在動畫創作中,文生圖應用潛力巨大。

我們給到混元大模型的Prompt 是「生成3D,動畫風格,1 個女孩,金色頭髮,微笑,短髮,城市背景」:
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
你覺得生成效果如何?是不是可以直接拿當桌布了?

文生圖背後,有哪些自研技術?

工欲善其事,必先利其器,對於大模型也是如此。

我們了解到,除了創新模型演算法,騰訊混元大模型實現這樣接中文地氣的文生圖效果,其背後還離不開高質​​量的圖文匹配數據、自研的機器學習框架以及強大的算力基礎設施。

騰訊混元大模型已經形成了從模型演算法到機器學習框架再到 AI 基礎設施的全鏈路自研技術路徑。多層次的技術沉澱,意味著大模型的進化需要一步一腳印,從實踐出發,在實踐中提升。

首先來看支撐模型訓練的資料工程。

對於任何 AI 特別是大模型而言,資料都是不可或缺的三大要素之一。大模型文生圖功能亦是如此,圖文資料尤其是圖文之間的配對資料對產生效果的影響舉足輕重。

但是網路上已有資料並不是都能拿來即用的,其中很大的問題是文字對圖片的描述不一定準確,這就導致大多數圖文匹配資料品質比較差。如果拿來用,即使訓練時間很長,模型生成效果仍達不到預期,也會影響生成品質的穩定性和後續的迭代效率。

因此,提升圖文資料品質成為保證文生圖效果的「第一道關」。這時候往往需要透過工程化的方式提升資料質量,支撐模型訓練、最佳化和升級,構築演算法模型的護城河。

面對圖文配對資料問題,騰訊混元文生圖團隊的因應策略是這樣的:首先細緻地完善中文prompt,提升圖文相關性,最大化資料品質;然後採取訓練資料分層、分級的策略,逐步優化模型,最大化資料效果;最後建造資料飛輪,它是大模型快速迭代的關鍵。團隊基於線上使用者使用大模型的回饋,自動化建立訓練數據,加快模型迭代,最大化數據效率。

資料品質、效果和效率提上去了,這就為良好的文生圖效果打下了基礎。而接下來要講的機器學習框架也同樣重要。

強大的機器學習架構或平台會大幅提升開發者建置、訓練和部署模型的速度和效率。騰訊針對大模型訓練和推理場景,自研了 Angel 機器學習平台,主要包括負責訓練的 AngelPTM 和負責推理的 AngelHCF 兩大部分。

其中AngelPTM 採用ZeRO-Cache 最佳化策略,成為超大模型訓練利器,它透過儲存管理擴大單機模型容量,透過多流非同步提高資源利用率,透過顯存管理提高顯存效率。另外利用 4D 並行提高可用顯存上限,減少千卡通訊壓力,釋放計算潛能。自動續訓機制支援千卡故障自動容錯,減少中斷時間。模型訓練情況也在即時監控之下,協同演算法優化模型訓練方向。

目前,AngelPTM 基於業界首創的ZeRO-Cache 機制4D 並行實現了千億混元基座模型的高速訓練,訓練速度相比主流開源框架(DeepSpeed -Chat)提升1 倍。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
                                    ZeRO-Cache 上。

AngelHCF 主要從客製化多樣化服務策略、平行策略、框架加速(涵蓋常用GPU 加速方法)、模型壓縮(支援業界常用壓縮方法)與高效模型Debug 能力五個層面提升大模型的推理表現。推理速度相比業界主流架構(FasterTransformer)提升 1.3 倍。

騰訊表示,其 Angel 機器學習平台具備了領先性能,能夠幫助提供更好的基建體系,助力大模型們高速運行。這使得混元大模型產生高質圖片的同時,生成速度也大大改善。

擁有了高品質的資料、高效率的機器學習框架,大模型的持續運作也面臨著算力層面的考驗。畢竟,大模型時代,算力為王。

騰訊混元文生圖功能離不開騰訊雲提供的強大算力基礎設施。 2023 年4 月,騰訊雲端發布新一代HCC 高效能運算集群,採用最新一代星星海自研伺服器,並基於自研網路和儲存架構,實現了3.2T 超高互聯頻寬、TB 級吞吐能力和千萬級IOPS。新一代集群算力效能較前代提升了 3 倍,較傳統算力集群方案提升 12 倍以上。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
夯實底層硬體的同時,上層軟體能力也要並進。新一代 HCC 集群整合了騰訊雲自研的 TACO 訓練加速引擎,從網路協定、通訊策略、AI 框架、模型編譯層面做了大量系統級最佳化。這套全生態的訓練加速方案不僅可以幫助客戶降低 AI 優化門檻,提升 AI 訓練性能,還使訓練調校和算力成本大大降低。

看起來,制約大模型的三大要素演算法、資料和算力,在騰訊混元大模型這裡都不成問題了。自然而然,文生圖品質和效果也得到了保障。

效果「以假亂真」,
#文生圖能力已嵌入騰訊廣告場景

今天我們看到的混合大模型文生圖能力,並非一蹴而就,而是一個實實在在的演進過程。

在上個月舉行的 2023 騰訊全球數位生態大會上,騰訊混元大模型正式亮相。騰訊集團副總裁蔣傑當時表示,混元永遠在路上。騰訊會一直演進混元的能力,並希望每個月都會帶給大家驚喜。

目前,騰訊已有180 個內部業務存取混元大模型,包括包括騰訊會議、騰訊文件、企業微信、騰訊廣告和微信搜一搜等。同時來自零售、教育、金融、醫療、傳媒、交通、政務等多個行業的客戶也透過騰訊雲調用騰訊混元 API,應用領域涉及智慧問答、內容創作、數據分析、程式碼助理等多個場景。

這次開放的文生圖能力就是騰訊混元大模型帶給我們的最大驚喜,展示其在影像自動生成領域的領先能力。當然,騰訊混元文生圖也在逐漸進化中,後續會發展出更多文生圖相關以及圖生圖功能。我們可以狠狠期待一波了。

目前,混元文生圖能力已經嵌入了騰訊廣告場景中,例如產生商品廣告或廣告配圖。在廣告業務下的多輪測評中,騰訊混元文生圖的案例優秀率和廣告主採納率分別達到 86% 和 26%,均高於同類模型。

我們先來看下面這個範例,要求混元大模型產生一個飯店房間。從效果來看,升級後混元文生圖效果明顯更好,設計感、品質感提升很大,細節更豐富。即使與 Midjourney 比較一番,效果也不相上下。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
人物類別生成場景也有類似的效果。升級後混元生成的人像真實感更強,例如臉部膚色、皺紋等細節。
騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析
廣告場景之外,騰訊內部也不斷探索其他文生圖的需求場景,例如遊戲場景中產生遊戲元素和遊戲角色、內容場景中生成小說配圖、插圖,雲端業務場景中將混元能力開放給不同產業的客戶。

大浪淘沙,再強悍的模型,也要讓更多人用上並持續獲得回饋,才有可能百尺竿頭更進一步。

可以預見,未來騰訊產品中將迎來混元文生圖能力的大爆發,使用者也將體驗更多 AIGC 帶來的魅力。

以上是騰訊混元大模型再升級,文生圖能力震撼發布,全面實測解析的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
ServiceNow在知識2025會議上挑戰傳統CRMServiceNow在知識2025會議上挑戰傳統CRMMay 16, 2025 am 03:45 AM

CRM在不斷發展的CRM景觀的連接市場中的演變至關重要。在當今的相互聯繫的市場中,客戶利用數字平台和社交媒體來交換體驗並影響購買決策。這是

[AI視頻]易於理解的解釋如何總結YouTube和Chatgpt中的提示![AI視頻]易於理解的解釋如何總結YouTube和Chatgpt中的提示!May 16, 2025 am 03:37 AM

AI對於有效的信息收集至關重要。在本文中,我們將解釋使用ChatGpt總結YouTube視頻的三種方法。 它還介紹了ChatGpt摘要的優點和缺點,以及建議的免費AI工具,並涵蓋了有效利用視頻內容的實用技術。 通過最新技術,大大提高了信息收集和分析的效率。 單擊此處以獲取有關Openai最新AI代理OpenAi Deep Research⬇️的更多信息 概括 在本文中,我們將使用Chatgpt向您介紹YouTube。

什麼是Openai O3(Chatgpt O3)?解釋如何使用它,費用和限制!什麼是Openai O3(Chatgpt O3)?解釋如何使用它,費用和限制!May 16, 2025 am 03:21 AM

OpenAI發布了令人矚目的新一代AI模型系列:OpenAI o3 (奧斯里) 和 o4-mini (奧福迷你),引發全球關注。其中,o3被譽為OpenAI迄今為止最智能、性能最高效的推理模型,有望將AI能力提升到一個新的高度。 本文將深入解讀OpenAI o3,涵蓋其驚人特性、使用方法、定價體系、訪問方式以及與以往模型的差異。 此外,我們將詳細介紹作為曾經備受期待的“o3-mini”的繼承者——o4-mini,它實現了高速、高性價比的運行。我們將深入探討o3強大的深度思考能力和o4-mini的

解釋如何與chatgpt創建畢業論文!還介紹要注意的點和點解釋如何與chatgpt創建畢業論文!還介紹要注意的點和點May 16, 2025 am 03:07 AM

CHATGPT:寫作畢業論文的有力盟友,但不要忘記成為道德和責任! Chatgpt是簡化和提高畢業論文質量的強大工具。但是,必須遵守學術倫理,並始終牢記這是作者本人的最終責任,這是至關重要的。 在本文中,我們將在七個步驟中解釋如何使用chatgpt創建畢業論文。從主題選擇到最終校對,請學習如何有效利用Chatgpt並旨在創建一個充實的論文。 目錄 使用chatgpt準備畢業論文的步驟

通過CHATGPT使您的電子郵件創建更有效!解釋提示和點的示例要小心通過CHATGPT使您的電子郵件創建更有效!解釋提示和點的示例要小心May 16, 2025 am 02:48 AM

高效撰寫商務郵件:利用ChatGPT提升效率 商務郵件是商業溝通中不可或缺的工具,但撰寫耗時費力。尤其商務郵件對措辭和格式要求嚴格,需仔細斟酌。 本文將介紹如何利用最新AI技術高效撰寫高質量郵件。我們將講解如何使用OpenAI開發的對話式AI服務ChatGPT,以及郵件撰寫技巧、注意事項和常用工具。助您流暢撰寫商務郵件,大幅提升工作效率。 我們還提供AI賦能營銷工具「AI Marketer」。現正接受預訂,感興趣的朋友請點擊以下鏈接查看詳情。 ▼服務詳情及申請▼ AI營銷工具「AI Market

強大的國家使用簽證如何贏得全球人工智能人才競賽強大的國家使用簽證如何贏得全球人工智能人才競賽May 16, 2025 am 02:13 AM

全球領先的國家正在激烈爭奪一群精英人工智能研究人員。他們正在採用加速的簽證程序和快速的公民身份來吸引頂尖的國際人才。這場國際比賽正在轉彎

我需要一個電話號碼來註冊chatgpt嗎?我們還解釋瞭如果您不能註冊該怎麼辦我需要一個電話號碼來註冊chatgpt嗎?我們還解釋瞭如果您不能註冊該怎麼辦May 16, 2025 am 01:24 AM

ChatGPT註冊不再需要手機號?本文將詳細解讀ChatGPT註冊流程的最新變化,包括手機號不再強制要求的優勢,以及API使用和多賬戶創建等特殊情況下仍需手機號認證的場景。此外,我們還將探討手機號註冊的安全性,並提供註冊過程中常見錯誤的解決方法。 ChatGPT註冊:手機號已非必需 過去,註冊ChatGPT需要進行手機號驗證。但2023年12月的一次更新取消了這一要求。現在,只需擁有郵箱地址或Google、Microsoft、Apple賬戶即可輕鬆註冊ChatGPT。 需要注意的是,雖然無需手

AI Put療法和同伴的十大用途在第一名AI Put療法和同伴的十大用途在第一名May 16, 2025 am 12:43 AM

讓我們深入研究AI的迷人世界及其最佳用途,如最新分析所述。這種開創性AI開發的探索是我正在進行的福布斯專欄的延續,在那裡我深入研究了AI的最新進展,包括

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

北端:融合系統,解釋
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
4 週前By尊渡假赌尊渡假赌尊渡假赌
<🎜>掩蓋:探險33-如何獲得完美的色度催化劑
2 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用