本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
最近的生成式 AI 可謂十分火爆,新出的預訓練影像生成模型多到讓人目不暇給。無論是肖像、風景,還是卡通漫畫、特定藝術家風格元素等等,每個模型都有它擅長生成的內容。
這麼多模型裡面,要如何快速找到一個能滿足自己創作欲的最佳模型呢?
近日,卡內基美隆大學的助理教授朱俊彥等人首次提出了基於內容的模型搜尋演算法,讓你能夠一鍵搜尋出最匹配的深度影像生成模型。
#論文網址:https://arxiv.org/pdf/2210.03116.pdf
在團隊基於這套模型搜尋算開發的線上模型共享和搜尋平台Modelverse 上,你可以輸入文字、圖像、草圖和給定模型,來搜尋出最匹配或相似的相關模型。
Modelverse 平台位址:https://modelverse.cs.cmu.edu/
圖註:輸入文字(如「非洲動物」)、圖像(如風景圖)、草圖(如一隻站立的貓的草圖)或一個給定模型,輸出排名靠前的相關模型(第二行、第三行)
例如,輸入文字“face”,得到結果如下:
輸入一隻貓咪影像:
#輸入一匹馬的草圖:
#1 基於內容的模型搜尋
和傳統的多媒體搜尋一樣,模型搜尋能夠幫助用戶找到最適合其特定需求的模型。但基於內容的模型搜尋任務有其特殊困難:
判斷模型是否可以產生特定圖像,這是一個比較難計算的問題,而且很多深度生成模型並沒有提供有效方法來估計密度,其本身也不支持評估跨模態相似性。而蒙特卡羅這種基於抽樣的方法又會讓模型搜尋過程變得非常緩慢。
為此,朱俊彥團隊提出了一個新的模型搜尋系統。
每個生成模型都會產生一個圖像分佈,所以作者將搜尋問題處理為最佳化,以最大化在給定模型的情況下產生與查詢匹配的機率。如下圖所示,系統由預緩存階段(a,b)和推理階段(c)組成。
圖註:模型搜尋方法概覽
給定一組模型,(a)首先為每個模型產生50K 樣本;(b) 然後將圖像編碼為圖像特徵併計算每個模型的一階和二階特徵統計。統計資料快取在系統中以提高效率;(c) 在推理階段,支援不同模態的查詢,包括圖像、草圖、文字描述、另一個生成模型或這些查詢類型的組合。作者在這裡引入近似值,查詢被編碼為特徵向量,透過評估查詢特徵與每個模型統計資料之間的相似性,來檢索具有最佳相似性度量的模型。
2 模型搜尋效果
作者對演算法進行評估,對133 個深度生成模型(包括GAN、擴散模型和自回歸模型)進行了消融實驗分析。與蒙特卡羅基線相比,此方法可實現更有效率的搜索,速度在 0.08 毫秒內,提升 5 倍,同時還能保持高精度。
透過對比模型檢索結果,我們也可以大致了解針對不同查詢輸入,哪些模型能產生更高品質的影像。例如下圖展示了模型檢索的結果比較。
圖註:模型檢索結果範例
##最上面一行是圖像查詢,輸入靜物畫,檢索相關藝術風格的模型,得到排名第一的StyleGAN2 模型和排名最後的Vision-aided GAN 模型。中間行是草圖查詢,輸入馬和教堂的草圖,得到 ADM、ProGAN 等模型。最下面一行是文字查詢,輸入“戴眼鏡的人”和“說話的鳥”,分別檢索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。
作者也發現,不同網路特徵空間的模型效能有差異。 如下圖所示,在輸入影像查詢時,結果顯示三個網路CLIP、DINO 和Inception 都具有相似的效能;而在輸入草圖查詢時,CLIP 效果明顯較好,而DINO 和Inception 則較不適合給定查詢,它們在藝術風格的模型上表現更好。
圖註:不同網路特徵空間中基於影像和草圖的模型檢索比較
另外,這項工作所提出的模型搜尋演算法還能支援多種應用,包括多模態使用者查詢、相似模型查詢、真實影像重構和編輯等。
例如多模態查詢可以幫助細化模型搜索,在只有“Nicolas Cage”的圖像時,只能檢索到人臉模型;但當同時使用“Nicolas Cage”和「dog」作為輸入時,就可以檢索到能產生「Nicolas Cage dog」影像的 StyleGAN-NADA 模型。 (如下圖)
圖註:多模態使用者查詢
當輸入是一個人臉模型時,可以檢索到更多的人臉生成模型,並且類別保持相似。 (如下圖)
圖註:相似模型查詢
給定真實人臉的查詢影像,使用排名較高的模型能獲得更精確的影像重建。下圖是使用不同排名模型的 CelebA-HQ 和 LSUN Church 影像的影像逆映射範例。
圖註:將真實影像投射到檢索到的 StyleGAN2 模型。
在對真實影像進行編輯的任務中,不同模型的表現也有高低之分。在下圖中,使用基於圖像的模型檢索演算法排名第一的模型來對真實圖像進行逆映射,然後使用 GANspace 進行編輯,從而將浮世繪圖圖像中的皺眉人臉變成笑臉。
#
圖註:編輯真實圖像
##這項研究已經證明了模型搜尋的可行性,而文字、音訊或其他內容生成的模型搜尋還有很大的研究空間。
但目前來看,這項工作所提出的方法還有一定的限制。例如,在查詢特定的草圖時,有時會匹配出抽象形狀的模型;而有時進行多模態查詢時,只能檢索到單一的模型,系統可能會很難處理像一隻狗的圖像「大象」這樣的多模態查詢。 (如下圖)
圖註:失敗案例
另外,在其模型搜尋平台上,對檢索出的模型清單並未根據其效果進行自動排序,如在生成影像的解析度、逼真度、匹配度等方面對不同模型進行評估並給出排名,這樣可更便於使用者檢索,也能幫助使用者更了解目前生成模型的優劣情況,並期待這方面的後續工作。
以上是CMU朱俊彥團隊研發出一款自動匹配排名系統,用於評估各種AI生成模型的優劣的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

Dreamweaver Mac版
視覺化網頁開發工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

禪工作室 13.0.1
強大的PHP整合開發環境