GTA 新出的遊戲預告看了嗎?據說,這個預告片已經破了三項金氏世界紀錄,觀看次數已經破億。
如果告訴你,三位AI巨頭也能在《俠盜獵車手》遊戲中扮演角色,你還能分辨出他們嗎?
AI 三巨頭:Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio。
這張合照採用了騰訊的 FaceStudio AI 模式合成,呈現了 GTA 風格的效果。這個AI 模型的獨特之處在於其出色的人物辨識度,將廣泛應用的「AI 寫真」技術推向了更高的水平
在人工智慧技術迅速發展的今天,AI 寫真照已經成為AI 技術應用的熱門方向。在 AI 影像應用領域,妙鴨相機等 AI 寫真產品已經展示了巨大的潛力和受歡迎程度。妙鴨相機的推出僅僅幾週就在社群媒體上引起了廣泛關注,其迅猛的成長速度凸顯了這個市場的巨大潛力。儘管如此,眾多 AI 寫真產品在技術上仍存在一定的局限性,例如用戶需要上傳多張差異較大的照片,並且需要等待較長時間才能獲得合成效果,這無疑影響了用戶體驗。
在這個由人工智慧主導的圖像創新浪潮中,騰訊的最新研究成果FaceStudio展現了更進一步的技術突破。這項研究不僅專注於快速合成人像,還更注重於保留人像的身份訊息,以滿足美觀需求的同時保持人物的獨特性和識別度。它不僅繼承了開源演算法StableDiffusion的核心優點,還在多個關鍵功能上進行了創新性改進。其中最引人注目的是其利用混合引導進行圖像生成的能力,特別在處理多人照片和風格化圖像兩個方面體現出來
FaceStudio 的核心技術在於其能夠在不犧牲個人身分特徵的情況下,實現風格化的人物影像合成。傳統的 AI 影像合成技術往往在追求視覺美感的同時,會犧牲人物的獨特性和辨識度。然而,FaceStudio 透過先進的混合引導機制,能夠在生成圖像時同時考慮文字提示、風格圖像和身份圖像,從而在保持個體特徵的基礎上實現多樣化的風格轉換。這不僅是技術上的一大突破,也為使用者提供了更豐富和個人化的影像合成選擇。
此外,FaceStudio 獨特的多重身分交叉注意機制,使其在處理包含多個人物的影像時特別出色。傳統方法在處理此類影像時常常會遇到難以準確區分和維持每個人物特徵的問題。但 FaceStudio 的這個機制可以準確地將不同身分的特徵資訊映射到影像的相應部分,無論是在保持每個人物的獨特性,還是在整體風格的協調性上都表現卓越。
FaceStudio 支援多種人臉相關的有趣應用
- 論文網址:https://arxiv.org/abs/2312.02663
- 首頁網址:https://icoz69.github .io/facestudio/
方法概述
混合式引導設計
##FaceStudio 的核心特性之一是其混合式引導設計。該團隊採用了一種獨特的方法,允許模型同時接收圖像和文字提示,從而產生具有特定身份特徵的圖像。基於影像提示的引導模組包含兩個子模組:
- 影像引導模組:在這個部分,FaceStudio 使用 CLIP 視覺編碼器來處理人類影像。這些圖像通常是風格化的,含有豐富的視覺訊息,如色彩、紋理和構圖等。 CLIP 編碼器能夠從這些影像中提取出複雜的風格特徵。
- 識別模組:並行於影像引導模組,騰訊團隊也設計了一個識別模組,這個模組使用 Arcface 模型來處理單獨的臉部影像。其主要目的是從臉部影像中提取關鍵的身份特徵,如臉部結構、表情和其他獨特的生物辨識資訊。
在提取出風格化影像的視覺特徵和臉部影像的身份特徵之後,這兩組特徵會被融合在一起。這個步驟透過一個線性層來完成,它將兩個特徵結合起來,創造一個綜合的引導特徵。這種方法的優點在於,它不僅能夠保留人物的身份特徵,還能夠在圖像生成過程中融入特定的風格和內容
FaceStudio 不僅僅具備圖像引導功能,還整合了文字引導功能。這項功能是透過使用先行訓練好的 PriorTransformer 模型來實現的。該模型能夠將 CLIP 文字特徵對應到對應的 CLIP 視覺特徵。然後,與圖像提示引導模組類似,這些視覺特徵與識別模組的特徵相結合,形成能夠回應文字提示的綜合引導特徵。最後,這兩個提示特徵被加權融合,實現混合引導
#需要重新編寫的內容是:臉譜工作室的架構示意圖
多人影像合成
#在騰訊團隊開發的FaceStudio框架中,有一個關鍵的創新,即"處理多人圖像"部分。這部分專注於在單一影像中合成多個人物的肖像,以確保每個人物在最終影像中都能保持其獨特的身份。面對一個包含多個人物的圖像,FaceStudio採用了一種特殊的注意力機制。這個機制確保在影像合成過程中,每個人物區域的特徵都只存取與之對應的身份資訊。這意味著模型能夠精確地控制每個人物的身份特徵,確保它們在最終圖像中呈現正確。為了實現這種精確的控制,騰訊團隊使用了人物實例分割模型。該模型能夠識別出影像中的不同人物,並將每個人物的區域與其對應的身份特徵相關聯。這樣,模型就可以確保在合成圖像時,每個人物的身份資訊都得到了正確的引導
#對比FaceStudio和基線演算法在多人影像產生方面的效果
訓練策略
騰訊團隊為FaceStudio設計了一個以人類影像重建為目標的訓練策略。他們透過這種方法,使用遮蓋面部區域的原始圖像作為風格化的人類圖像的輸入,並同時使用相同圖像中裁剪的面部作為身份的輸入。這樣,模型在產生引導影像時能夠更準確地保留人物的身份特徵。與現有的生成模型訓練方式不同,這種方法只依賴人像作為訓練數據,不需要文字標註,大大減輕了對標註數據的依賴。它能夠更好地適應各種風格的人像
結果展示
#FaceStudio 透過評估人臉相似度和人像生成時間來展現其獨特的優勢。實驗結果顯示,FaceStudio 產生單一人像只需不到 4 秒即可完成,而基於優化的熱門演算法 DreamBooth 則需要長達 6 分鐘。同時 FaceStudio 更好地保留了人像特徵,有著更好的臉相似度。實驗結果比較如下:
#研究人員對FaceStudio進行了與目前最佳人像產生模型演算法的比較,使用了相同的圖像作為樣本。比較結果顯示,FaceStudio在幾乎所有的樣本上都取得了更好或同等級的效果。這進一步證明了FaceStudio具有強大的穩健性和泛化性。具體的比較結果如下:
此外,在FaceStudo的實驗中還展示了多種獨特的人臉圖像生成應用,其中包括身份混合和文字圖像混合引導生成
#身份混合影像產生實驗
############################################################################## ####文字影像混合引導影像產生實驗######################FaceStudio 產生的人像範例有多種風格######## ####總結############綜上所述,FaceStudio 的出現標誌著個人化影像生成領域的重大進展。它在保持人物身份的同時,提供了豐富的風格化和文字驅動的圖像生成選項。這種能力不僅對藝術創作和娛樂產業有巨大價值,也可能在廣告、數位媒體製作和個人化內容創作等領域中發揮重要作用。透過精確控製影像中的身份和風格,FaceStudio 為未來影像生成技術的發展開闢了新的道路,預示著這一領域的創新和變革######
以上是GTA6預告片播放量超過10億,AI巨頭也能迅速進入GTA匪幫角色的詳細內容。更多資訊請關注PHP中文網其他相關文章!

動盪遊戲:與AI代理商的遊戲開發徹底改變 Roupheaval是一家遊戲開發工作室,由暴風雪和黑曜石等行業巨頭的退伍軍人組成,有望用其創新的AI驅動的Platfor革新遊戲創作

Uber的Robotaxi策略:自動駕駛汽車的騎車生態系統 在最近的Curbivore會議上,Uber的Richard Willder推出了他們成為Robotaxi提供商的乘車平台的策略。 利用他們在

事實證明,視頻遊戲是最先進的AI研究的寶貴測試理由,尤其是在自主代理商和現實世界機器人的開發中,甚至有可能促進人工通用情報(AGI)的追求。 一個

不斷發展的風險投資格局的影響在媒體,財務報告和日常對話中顯而易見。 但是,對投資者,初創企業和資金的具體後果經常被忽略。 風險資本3.0:範式

Adobe Max London 2025對Creative Cloud和Firefly進行了重大更新,反映了向可訪問性和生成AI的戰略轉變。 該分析結合了事件前簡報中的見解,並融合了Adobe Leadership。 (注意:Adob

Meta的Llamacon公告展示了一項綜合的AI策略,旨在直接與OpenAI等封閉的AI系統競爭,同時為其開源模型創建了新的收入流。 這個多方面的方法目標bo

人工智能領域對這一論斷存在嚴重分歧。一些人堅稱,是時候揭露“皇帝的新衣”了,而另一些人則強烈反對人工智能僅僅是普通技術的觀點。 讓我們來探討一下。 對這一創新性人工智能突破的分析,是我持續撰寫的福布斯專欄文章的一部分,該專欄涵蓋人工智能領域的最新進展,包括識別和解釋各種有影響力的人工智能複雜性(請點擊此處查看鏈接)。 人工智能作為普通技術 首先,需要一些基本知識來為這場重要的討論奠定基礎。 目前有大量的研究致力於進一步發展人工智能。總目標是實現人工通用智能(AGI)甚至可能實現人工超級智能(AS

公司AI模型的有效性現在是一個關鍵的性能指標。自AI BOOM以來,從編寫生日邀請到編寫軟件代碼的所有事物都將生成AI使用。 這導致了語言mod的擴散


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器