搜尋
首頁科技週邊人工智慧抖音超900萬人在用的「卡通臉」特效技術揭秘

說到特效玩法,抖音的 「整活兒」 能力一直有目共睹。最近,風頭正勁的是一款「卡通臉」特效。無論男女老少,用上這款特效後,都彷彿從迪士尼動畫裡走出來的人物一樣靈動可愛。 「卡通臉」一經上線,在抖音上迅速發酵,深受用戶喜愛,「一鍵變身高甜卡通臉」「全抖音的在逃公主都來了」「用卡通臉花式曬娃」「王子公主撒糖手勢舞」「捕捉童話魔法失靈瞬間」 等相關熱點不斷衍生,其中,「全抖音的在逃公主都來了」「捕捉童話魔法失靈瞬間」 更是登上了抖音全國熱點榜。目前,這項特效的使用人數已經超過 900w。

「卡通臉」屬於3D 風格特效,這類特效的研發難點主要集中在多樣性的CG 訓練資料不易取得、靈動的表情神態難以還原、真實貼合的立體膚質光影難以實現、誇張強風格的五官形變GAN 不易學習等多個面向。對此,位元組跳動智慧創作團隊在 3D 風格化方向重點突破優化,不僅解決了上述所有難題,還沉澱了一套通用的技術解決方案。

抖音超900萬人在用的「卡通臉」特效技術揭秘

「卡通臉」背後的研發流程創新

過去,一個完整的3D 風格化研發流程分為以下幾個模組:

蒐集若干原始風格圖片-> 訓練StyleGan 大模型-> 產生成對資料-> 人工挑選可用成對資料設計師P 圖最佳化-> 訓練p2p 小模型,然後不停重複。

抖音超900萬人在用的「卡通臉」特效技術揭秘

傳統的研發流程的問題非常明顯:迭代週期長,設計師可參與度弱,且不易於沉澱和復用。

在「卡通臉」這個特效的研發中,位元組跳動智慧創作團隊採用了創新的研發流程

從設計師製作目標風格效果開始,設計師依照演算法約定的要求提供一些3D美術素材,然後位元組跳動智慧創作團隊借助DCC軟體批量渲染若干多樣性的CG數據,在渲染過程中技術團隊首次引入時下最火的AIGC技術對數據做了增強處理,之後用GAN合成訓練所需的成對數據,最後採用自研的形變pix2pix模型訓練就可以得到最終效果。

抖音超900萬人在用的「卡通臉」特效技術揭秘

################################## #########從流程連結可以看出,這個方法大大縮減了迭代周期,提高了自動化程度,也讓設計師有更高的參與度,實踐顯示,創新的工程鏈路將迭代週期從6 個月縮減至1 個月,方案也更容易沉澱和重複使用。 #########「卡通臉」特效是怎麼設計出來的#########如今在社群媒體上有越來越多的變身特效,人們越來越注重特效的美觀與精確度,為了讓使用者更能實現風格化變身的效果,抖音特效的設計師們經過精心研究,結合了熱門動畫畫風,創新地設計了一套卡通臉特效,讓用戶可以體驗到動畫般靈活的角色風格,同時滿足了使用者的變美變帥需求。 ######

抖音特效設計師針對目前市場上現有的變身特效進行了深入研究,發現現有的特效存在風格不夠吸引人、表情誇張度不足、燈光效果不夠真實等問題。因此,抖音特效設計師結合國內美學,重新設計了卡通臉的畫風,將男女面部比例特徵誇張化,重構成可愛圓臉五官靈巧的 “女孩” 和硬朗長臉五官帥氣的 “男生”。在這過程中,設計師保留了使用者本身的頭髮,增強了頭髮的蓬鬆感及光澤度,使其與卡通臉的融合更加自然,卡通質感的皮膚也融入了用戶本人皮膚的細節,使特效更具有使用者的個性特徵。

此外,抖音特效的設計師也定義了不同燈光下的光影質感,滿足複雜場景下的燈​​光還原的需求,使卡通臉更加立體且自然,融入日常自拍無違和感。最後,設計師也製作了誇張符號化的面部表情,透過對數位人資產採用臉部捕捉技術生成表情 CG 數據,不斷完善訓練數據和演算法,產出了能夠更加靈活展現用戶個性的表情效果。

自建CG 合成資料流,高品質訓練資料可重複使用

3D 風格類特效的訓練資料來源依賴高品質的CG 渲染數據,且對資料分佈的多樣性要求比較高,同時3D 資產手動建模也是一個非常耗費人力的過程,可復用性也​​不足,往往一個專案花費了昂貴的人力時間成本製作了一批3D 資產,在專案結束後就完全廢棄了。

這一次,位元組跳動智慧創作團隊建立了一套通用易擴展的 CG 合成資料工作流程。

抖音超900萬人在用的「卡通臉」特效技術揭秘

#位元組跳動智慧創作團隊CG 合成資料流的流程圖

這一合成資料流的工作流程如下:

1. 透過Houdini 程式化的產生數位資產,程式化捏臉,綁骨,調整權重等,建立真實感數位人模型資產庫。

抖音超900萬人在用的「卡通臉」特效技術揭秘


抖音超900萬人在用的「卡通臉」特效技術揭秘

多樣性3D 數位資產

2. 透過Houdini 的Solaris 建立USD 模板,將頭髮,毛髮,頭模,服飾,表情係數等資產分別以USD reference 導入。

抖音超900萬人在用的「卡通臉」特效技術揭秘

「皮膚貼圖樣本

抖音超900萬人在用的「卡通臉」特效技術揭秘

抖音超900萬人在用的「卡通臉」特效技術揭秘

虹膜貼圖樣本

#3. 透過Houdini 的PDG 對資產,相機角度,燈光環境等進行隨機組合。利用 PDG 對 workitem 的控制,精準的控制資料分佈。 ############################## 自動化的PDG 節點圖#########################自動化的PDG 節點圖###############由於研發過程需要頻繁提供大量的渲染資料用於效果迭代,這需要花費大量算力成本以及渲染等待時間。先前,在抖音的「魔法變身」特效上,團隊曾花費了數百萬成本使用外部農場進行資料渲染。而在「卡通臉」特效上,團隊基於位元組跳動旗下雲端平台火山引擎紮實的基礎設施,大大降低了算力成本。 ######

位元組跳動智慧創作團隊參考影視產業的流程,建構了一套自研的渲染農場平台。它可以將離線任務拆解到若干個渲染機器上進行平行處理。透過火山引擎鏡像平台進行鏡像託管、資源池化平台進行資源申請與釋放、cpu/gpu 叢集進行容器動態擴縮容,再使用nas 進行資產管理,渲染農場具備了一鍵擴充數千個渲染節點進行高效計算的能力。

基於此,位元組跳動智慧創作團隊自訂了單一任務處理邏輯,包括前處理、引擎渲染、後處理等步驟。並根據需要,在任何時候動態擴展 / 縮小集群規模以最大化利用算力資源。

為了進一步提高效率,讓設計師更方便參與到效果優化中,技術團隊也製作了飛書小程式供設計師使用,透過飛書觸發雲端的自動化流程來迭代美術效果,在雲端任務完成後,會發送訊息回到飛書供設計師查看,大大提高了設計師工作的效率。

同時,位元組跳動智慧創作團隊自訂了事件驅動(EventTrigger)和Api 來打通農場、飛書平台以及雲端桌面平台,最大程度推進All in one 理念,讓設計師和工程師都能基於飛書和雲端桌面更方便地完成協同研發。

抖音超900萬人在用的「卡通臉」特效技術揭秘

#自研的渲染農場平台

AIGC 新科技的應用

隨著DALL・E 的問世,2021 年初位元組跳動智慧創作團隊就開始了相關技術的跟進與規劃,位元組跳動智慧創作團隊在Stable Diffusion 開源模型的基礎上,建構了資料量達十億規模的資料集,訓練出兩個模型,一個是通用型的模型Diffusion Model,可以產生如油畫、水墨畫風格的圖片;另外一個是動漫風格的Diffusion Model 模型。

前不久,由位元組跳動智慧創作團隊支援的「AI 繪畫」特效在抖音上大火,採用的就是這項新技術。這次在抖音「卡通臉」上,技術團隊進一步挖掘Diffusion Model 在3D 卡通風格上的生成能力,採用了圖片生成圖片的策略,首先對圖片進行加噪,然後再用訓練好的文生圖模型在文字的引導下去雜訊。基於一個預先訓練好的Stable Diffusion 模型,輸入GAN 產生的與真人圖相匹配的目標3D 風格結果圖,透過精調過的一組文字關鍵字,引導目標風格往期望的方向靠近,Stable Diffusion 輸出的結果即作為最終資料交給後續的GAN 模型學習。

自研的形變GAN 模型

由於抖音「卡通臉」的目標風格與原始人像相比有較大形變,直接用傳統p2p 框架難以訓練出高品質效果,位元組跳動智慧創作團隊自研了一套p2p 形變GAN 訓練框架,對於訓練大形變、強風格的卡通目標有很好的效果。位元組跳動智慧創作團隊自研的形變 GAN 訓練框架包含兩個部分:

1、風格化初步訓練,提取卡通臉風格化資訊。技術團隊建立了一個風格化資訊互動融合的非配對訓練框架,將真人和卡通臉資料集輸入到該框架就可以提取卡通臉風格化資訊。該框架是一個端到端的訓練框架,包含了風格化特徵編碼、特徵融合、重建訓練和風格化初步訓練,訓練完成後得到一個卡通臉風格化信息,用於下一步精細化訓練。

抖音超900萬人在用的「卡通臉」特效技術揭秘

2、融合卡通臉風格化訊息,精細訓練。第一步得到的卡通臉風格化訊息包含了風格和形變等訊息,將這部分訊息融合到真人圖進行精細化訓練,利用p2p 相關的強監督loss 進行配對訓練,訓練收斂後得到卡通臉模型。

抖音超900萬人在用的「卡通臉」特效技術揭秘

基於上述創新的技術方案,抖音「卡通臉」不僅簡化了工程連結、大幅提升迭代效率,還在大角度、表情豐富度、效果風格還原、光影一致性和多膚色匹配等方面取得了明顯的最佳化效果。據了解,負責「卡通臉」專案的位元組跳動智慧創作團隊自 2021 年以來就在 3D 風格化方向重點突破優化,該技術方案已支援多款 3D 風格特效取得平台爆款的成績。

關於位元組跳動智慧創作團隊:

智慧創作團隊是位元組跳動AI & 多媒體技術中台,透過建立領先的電腦視覺、影音編輯、特效處理等技術,支援抖音、剪映、頭條等公司內眾多產品線;同時透過火山引擎為外部ToB 合作夥伴提供業界前沿的智慧創作能力與行業解決方案。


#

以上是抖音超900萬人在用的「卡通臉」特效技術揭秘的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具