Text-to-image(T2I)擴散模型在產生高清晰度影像方面表現卓越,這要歸功於其在大規模影像-文字對上的預訓練。
這引發了一個自然的問題:擴散模型是否可以用來解決視覺知覺任務?
最近,位元組跳動和復旦大學的團隊提出了擴散模型來處理視覺任務。
論文網址:https://arxiv.org/abs/2312.14733
開源專案: https://github.com/fudan-zvg/meta-prompts
#團隊的關鍵洞察是將可學習的元提示引入預訓練的擴散模型中,以提取適用於特定知覺任務的特徵。
技術介紹
團隊將text-to-image擴散模型作為特徵提取器應用於視覺感知任務。
首先,輸入影像經過VQVAE編碼器壓縮,解析度降低為原始大小的1/8,產生latent space特徵表示。值得注意的是,VQVAE編碼器參數固定,不參與後續訓練。
下一步,將未加入雜訊的資料送入UNet進行特徵擷取。為了更好地適應不同任務,UNet同時接收調製的時間步嵌入和多個元提示,以產生與形狀一致的特徵。
在整個過程中,為了增強特徵表達,該方法進行了步驟的recurrent refinement。這使得UNet內不同層的特徵能夠更好地互動融合。在第次循環中,UNet的參數由特定的可學習的時間調製特徵調節。
最終,UNet產生的多尺度特徵輸入到專為目標視覺任務設計的解碼器中。
可學習的元提示(meta prompts)設計
Stable diffusion model採用UNet架構,透過交叉注意力將文字提示融入圖像特徵中,實現了文生圖。這種整合確保了圖像生成在語境和語義上的準確性。
然而,視覺感知任務的多樣性超越了這個範疇,因為圖像理解面臨著不同的挑戰,往往缺乏文字訊息作為指導,使得以文字驅動的方法有時顯得不切實際。
為應對這項挑戰,技術團隊的方法採用了更為多樣的策略-不依賴外部文字提示,而是設計了一種內部的可學習元提示,稱為meta prompts,這些meta prompts被整合到擴散模型中,以適應感知任務。
Meta prompts以矩陣 的形式表示,其中表示meta prompts的數量,表示維度。具備meta prompts的感知擴散模型避免了對外部文字提示的需求,例如資料集類別標籤或圖像標題,也無需預先訓練的文字編碼器來產生最終的文字提示。
Meta prompts可以根據目標任務和資料集進行端到端的訓練,從而為去噪UNet建立特別客製化的適應條件。這些meta prompts包含豐富的、適應於特定任務的語意資訊。例如:
- 在語意分割任務中,meta prompts有效地展示了對類別的識別能力,相同的meta prompts傾向於激活同一類別的特徵。
- 在深度估計任務中,meta prompts表現出對深度的感知能力,激活值隨深度變化,使prompts能夠集中關註一致距離的物體。
- 在姿態估計中,meta prompts展現出一套不同的能力,特別是關鍵點的感知,這有助於人體姿態檢測。
這些定性結果共同突顯了技術團隊提出的meta prompts在各種任務中對任務相關激活能力的有效性。
作為文字提示的替代品,meta prompts很好地填補了text-to-image擴散模型與視覺感知任務之間的溝壑。
基於元提示的特徵重組
#擴散模型透過其固有的設計,在去雜訊UNet中生成多尺度特徵,這些特徵在接近輸出層時聚焦於更細緻、低階的細節資訊。
雖然這種低階細節對於強調紋理和細粒度的任務來說足夠,但視覺感知任務通常需要理解既包括低階細節的又包括高級語義解釋的內容。
因此,不僅需要產生豐富的特徵,確定這些多尺度特徵的哪種組合方式可以為當前任務提供最佳表徵也非常重要。
這就是meta prompts的作用所在-
#這些prompts在訓練過程中保存了與所使用資料集特定相關的上下文知識。這種上下文知識使meta prompts能夠充當特徵重組的過濾器,引導特徵選取過程,從UNet產生的眾多特徵中篩選出與任務最相關的特徵。
團隊使用點積的方式將UNet的多尺度特徵的豐富性與meta prompts的任務適應性結合。
考慮多尺度特徵,其中各。和表示特徵圖的高度和寬度。 Meta prompts 。每個尺度上重排的特徵的計算為:
最後,這些經過meta prompts過濾的特徵隨後輸入到特定任務的解碼器中。
基於可學習的時間調製特徵的recurrent refinement
在擴散模型中,加入雜訊然後多步去雜訊的迭代過程構成了影像產生的框架。
受此機制的啟發,技術團隊為視覺感知任務設計了一個簡單的recurrent refinement過程-沒有向輸出特徵中添加噪聲,而是直接將UNet的輸出特徵循環輸入到UNet中。
同時為了解決隨著模型通過循環,輸入特徵的分佈會發生變化但UNet的參數保持不變的不一致的問題,技術團隊對於每個循環引入了可學習的獨特的timestep embeddings,以調製UNet的參數。
這確保了網路對於不同步驟中輸入特徵的變化性保持適應性和響應性,優化了特徵提取過程,並增強了模型在視覺識別任務中的表現。
結果顯示,此方法在多個知覺任務資料集上都取得了最優。
#應用落地與展望
這篇文章提出的方法和技術有廣泛的應用前景,可以在多個領域內推動技術的發展和創新:
- 視覺感知任務的改進:研究能夠提升各種視覺感知任務的表現,如影像分割、深度估計和姿態估計。這些改進可應用於自動駕駛、醫學影像分析、機器人視覺系統等領域。
- 增強的電腦視覺模型:所提出的技術可以使電腦視覺模型在處理複雜場景時更加準確和高效,特別是在缺乏明確文字描述的情況下。這對於圖像內容理解等應用尤其重要。
- 跨領域應用:該研究的方法和發現可以激勵跨領域的研究和應用,例如在藝術創作、虛擬實境、擴增實境中,用於提高影像和影片的品質和互動性。
- 長期展望:隨著科技的進步,這些方法可能會進一步完善,帶來更先進的影像產生和內容理解技術。
團隊介紹
智慧創作團隊是位元組跳動AI&多媒體技術中台,涵蓋了電腦視覺、影音編輯、特效處理等技術領域,借助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿演算法-工程系統-產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力與產業解決方案。
目前,智慧創作團隊已透過位元組跳動旗下的雲端服務平台火山引擎向企業開放技術能力與服務。更多大模型演算法相關職位開放中,歡迎點選「閱讀原文」查看。
以上是位元組復旦團隊創新的「元提示」策略提升了擴散模型影像理解的效能,達到了前所未有的水平!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

動盪遊戲:與AI代理商的遊戲開發徹底改變 Roupheaval是一家遊戲開發工作室,由暴風雪和黑曜石等行業巨頭的退伍軍人組成,有望用其創新的AI驅動的Platfor革新遊戲創作

Uber的Robotaxi策略:自動駕駛汽車的騎車生態系統 在最近的Curbivore會議上,Uber的Richard Willder推出了他們成為Robotaxi提供商的乘車平台的策略。 利用他們在

事實證明,視頻遊戲是最先進的AI研究的寶貴測試理由,尤其是在自主代理商和現實世界機器人的開發中,甚至有可能促進人工通用情報(AGI)的追求。 一個

不斷發展的風險投資格局的影響在媒體,財務報告和日常對話中顯而易見。 但是,對投資者,初創企業和資金的具體後果經常被忽略。 風險資本3.0:範式

Adobe Max London 2025對Creative Cloud和Firefly進行了重大更新,反映了向可訪問性和生成AI的戰略轉變。 該分析結合了事件前簡報中的見解,並融合了Adobe Leadership。 (注意:Adob

Meta的Llamacon公告展示了一項綜合的AI策略,旨在直接與OpenAI等封閉的AI系統競爭,同時為其開源模型創建了新的收入流。 這個多方面的方法目標bo

人工智能領域對這一論斷存在嚴重分歧。一些人堅稱,是時候揭露“皇帝的新衣”了,而另一些人則強烈反對人工智能僅僅是普通技術的觀點。 讓我們來探討一下。 對這一創新性人工智能突破的分析,是我持續撰寫的福布斯專欄文章的一部分,該專欄涵蓋人工智能領域的最新進展,包括識別和解釋各種有影響力的人工智能複雜性(請點擊此處查看鏈接)。 人工智能作為普通技術 首先,需要一些基本知識來為這場重要的討論奠定基礎。 目前有大量的研究致力於進一步發展人工智能。總目標是實現人工通用智能(AGI)甚至可能實現人工超級智能(AS

公司AI模型的有效性現在是一個關鍵的性能指標。自AI BOOM以來,從編寫生日邀請到編寫軟件代碼的所有事物都將生成AI使用。 這導致了語言mod的擴散


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3漢化版
中文版,非常好用

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。