首頁  >  文章  >  科技週邊  >  GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

王林
王林轉載
2023-12-14 22:45:531280瀏覽

GTA 新出的遊戲預告看了嗎?據說,這個預告片已經破了三項金氏世界紀錄,觀看次數已經破億。

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

如果告訴你,三位AI巨頭也能在《俠盜獵車手》遊戲中扮演角色,你還能分辨出他們嗎?

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

AI 三巨頭:Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio。 

這張合照採用了騰訊的 FaceStudio AI 模式合成,呈現了 GTA 風格的效果。這個AI 模型的獨特之處在於其出色的人物辨識度,將廣泛應用的「AI 寫真」技術推向了更高的水平

在人工智慧技術迅速發展的今天,AI 寫真照已經成為AI 技術應用的熱門方向。在 AI 影像應用領域,妙鴨相機等 AI 寫真產品已經展示了巨大的潛力和受歡迎程度。妙鴨相機的推出僅僅幾週就在社群媒體上引起了廣泛關注,其迅猛的成長速度凸顯了這個市場的巨大潛力。儘管如此,眾多 AI 寫真產品在技術上仍存在一定的局限性,例如用戶需要上傳多張差異較大的照片,並且需要等待較長時間才能獲得合成效果,這無疑影響了用戶體驗。

在這個由人工智慧主導的圖像創新浪潮中,騰訊的最新研究成果FaceStudio展現了更進一步的技術突破。這項研究不僅專注於快速合成人像,還更注重於保留人像的身份訊息,以滿足美觀需求的同時保持人物的獨特性和識別度。它不僅繼承了開源演算法StableDiffusion的核心優點,還在多個關鍵功能上進行了創新性改進。其中最引人注目的是其利用混合引導進行圖像生成的能力,特別在處理多人照片和風格化圖像兩個方面體現出來

FaceStudio 的核心技術在於其能夠在不犧牲個人身分特徵的情況下,實現風格化的人物影像合成。傳統的 AI 影像合成技術往往在追求視覺美感的同時,會犧牲人物的獨特性和辨識度。然而,FaceStudio 透過先進的混合引導機制,能夠在生成圖像時同時考慮文字提示、風格圖像和身份圖像,從而在保持個體特徵的基礎上實現多樣化的風格轉換。這不僅是技術上的一大突破,也為使用者提供了更豐富和個人化的影像合成選擇。

此外,FaceStudio 獨特的多重身分交叉注意機制,使其在處理包含多個人物的影像時特別出色。傳統方法在處理此類影像時常常會遇到難以準確區分和維持每個人物特徵的問題。但 FaceStudio 的這個機制可以準確地將不同身分的特徵資訊映射到影像的相應部分,無論是在保持每個人物的獨特性,還是在整體風格的協調性上都表現卓越。

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

FaceStudio 支援多種人臉相關的有趣應用

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

  • 論文網址:https://arxiv.org/abs/2312.02663
  • 首頁網址:https://icoz69.github .io/facestudio/

方法概述

混合式引導設計

##FaceStudio 的核心特性之一是其混合式引導設計。該團隊採用了一種獨特的方法,允許模型同時接收圖像和文字提示,從而產生具有特定身份特徵的圖像。基於影像提示的引導模組包含兩個子模組:

  • 影像引導模組:在這個部分,FaceStudio 使用 CLIP 視覺編碼器來處理人類影像。這些圖像通常是風格化的,含有豐富的視覺訊息,如色彩、紋理和構圖等。 CLIP 編碼器能夠從這些影像中提取出複雜的風格特徵。
  • 識別模組:並行於影像引導模組,騰訊團隊也設計了一個識別模組,這個模組使用 Arcface 模型來處理單獨的臉部影像。其主要目的是從臉部影像中提取關鍵的身份特徵,如臉部結構、表情和其他獨特的生物辨識資訊。

在提取出風格化影像的視覺特徵和臉部影像的身份特徵之後,這兩組特徵會被融合在一起。這個步驟透過一個線性層來完成,它將兩個特徵結合起來,創造一個綜合的引導特徵。這種方法的優點在於,它不僅能夠保留人物的身份特徵,還能夠在圖像生成過程中融入特定的風格和內容

FaceStudio 不僅僅具備圖像引導功能,還整合了文字引導功能。這項功能是透過使用先行訓練好的 PriorTransformer 模型來實現的。該模型能夠將 CLIP 文字特徵對應到對應的 CLIP 視覺特徵。然後,與圖像提示引導模組類似,這些視覺特徵與識別模組的特徵相結合,形成能夠回應文字提示的綜合引導特徵。最後,這兩個提示特徵被加權融合,實現混合引導

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

#需要重新編寫的內容是:臉譜工作室的架構示意圖

多人影像合成

#在騰訊團隊開發的FaceStudio框架中,有一個關鍵的創新,即"處理多人圖像"部分。這部分專注於在單一影像中合成多個人物的肖像,以確保每個人物在最終影像中都能保持其獨特的身份。面對一個包含多個人物的圖像,FaceStudio採用了一種特殊的注意力機制。這個機制確保在影像合成過程中,每個人物區域的特徵都只存取與之對應的身份資訊。這意味著模型能夠精確地控制每個人物的身份特徵,確保它們在最終圖像中呈現正確。為了實現這種精確的控制,騰訊團隊使用了人物實例分割模型。該模型能夠識別出影像中的不同人物,並將每個人物的區域與其對應的身份特徵相關聯。這樣,模型就可以確保在合成圖像時,每個人物的身份資訊都得到了正確的引導

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

#對比FaceStudio和基線演算法在多人影像產生方面的效果

訓練策略

騰訊團隊為FaceStudio設計了一個以人類影像重建為目標的訓練策略。他們透過這種方法,使用遮蓋面部區域的原始圖像作為風格化的人類圖像的輸入,並同時使用相同圖像中裁剪的面部作為身份的輸入。這樣,模型在產生引導影像時能夠更準確地保留人物的身份特徵。與現有的生成模型訓練方式不同,這種方法只依賴人像作為訓練數據,不需要文字標註,大大減輕了對標註數據的依賴。它能夠更好地適應各種風格的人像

結果展示

#FaceStudio 透過評估人臉相似度和人像生成時間來展現其獨特的優勢。實驗結果顯示,FaceStudio 產生單一人像只需不到 4 秒即可完成,而基於優化的熱門演算法 DreamBooth 則需要長達 6 分鐘。同時 FaceStudio 更好地保留了人像特徵,有著更好的臉相似度。實驗結果比較如下:

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色


#研究人員對FaceStudio進行了與目前最佳人像產生模型演算法的比較,使用了相同的圖像作為樣本。比較結果顯示,FaceStudio在幾乎所有的樣本上都取得了更好或同等級的效果。這進一步證明了FaceStudio具有強大的穩健性和泛化性。具體的比較結果如下:

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

此外,在FaceStudo的實驗中還展示了多種獨特的人臉圖像生成應用,其中包括身份混合和文字圖像混合引導生成

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

 #身份混合影像產生實驗

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色

############################################################################## ####文字影像混合引導影像產生實驗######################FaceStudio 產生的人像範例有多種風格######## ####總結############綜上所述,FaceStudio 的出現標誌著個人化影像生成領域的重大進展。它在保持人物身份的同時,提供了豐富的風格化和文字驅動的圖像生成選項。這種能力不僅對藝術創作和娛樂產業有巨大價值,也可能在廣告、數位媒體製作和個人化內容創作等領域中發揮重要作用。透過精確控製影像中的身份和風格,FaceStudio 為未來影像生成技術的發展開闢了新的道路,預示著這一領域的創新和變革######

以上是GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除