Text-to-image(T2I)擴散模型在產生高清晰度影像方面表現卓越,這要歸功於其在大規模影像-文字對上的預訓練。
這引發了一個自然的問題:擴散模型是否可以用來解決視覺知覺任務?
最近,位元組跳動和復旦大學的團隊提出了擴散模型來處理視覺任務。
論文網址:https://arxiv.org/abs/2312.14733
開源專案: https://github.com/fudan-zvg/meta-prompts
#團隊的關鍵洞察是將可學習的元提示引入預訓練的擴散模型中,以提取適用於特定知覺任務的特徵。
團隊將text-to-image擴散模型作為特徵提取器應用於視覺感知任務。
首先,輸入影像經過VQVAE編碼器壓縮,解析度降低為原始大小的1/8,產生latent space特徵表示。值得注意的是,VQVAE編碼器參數固定,不參與後續訓練。
下一步,將未加入雜訊的資料送入UNet進行特徵擷取。為了更好地適應不同任務,UNet同時接收調製的時間步嵌入和多個元提示,以產生與形狀一致的特徵。
在整個過程中,為了增強特徵表達,該方法進行了步驟的recurrent refinement。這使得UNet內不同層的特徵能夠更好地互動融合。在第次循環中,UNet的參數由特定的可學習的時間調製特徵調節。
最終,UNet產生的多尺度特徵輸入到專為目標視覺任務設計的解碼器中。
可學習的元提示(meta prompts)設計
Stable diffusion model採用UNet架構,透過交叉注意力將文字提示融入圖像特徵中,實現了文生圖。這種整合確保了圖像生成在語境和語義上的準確性。
然而,視覺感知任務的多樣性超越了這個範疇,因為圖像理解面臨著不同的挑戰,往往缺乏文字訊息作為指導,使得以文字驅動的方法有時顯得不切實際。
為應對這項挑戰,技術團隊的方法採用了更為多樣的策略-不依賴外部文字提示,而是設計了一種內部的可學習元提示,稱為meta prompts,這些meta prompts被整合到擴散模型中,以適應感知任務。
Meta prompts以矩陣 的形式表示,其中表示meta prompts的數量,表示維度。具備meta prompts的感知擴散模型避免了對外部文字提示的需求,例如資料集類別標籤或圖像標題,也無需預先訓練的文字編碼器來產生最終的文字提示。
Meta prompts可以根據目標任務和資料集進行端到端的訓練,從而為去噪UNet建立特別客製化的適應條件。這些meta prompts包含豐富的、適應於特定任務的語意資訊。例如:
- 在語意分割任務中,meta prompts有效地展示了對類別的識別能力,相同的meta prompts傾向於激活同一類別的特徵。
- 在深度估計任務中,meta prompts表現出對深度的感知能力,激活值隨深度變化,使prompts能夠集中關註一致距離的物體。
#- 在姿態估計中,meta prompts展現出一套不同的能力,特別是關鍵點的感知,這有助於人體姿態檢測。
這些定性結果共同突顯了技術團隊提出的meta prompts在各種任務中對任務相關激活能力的有效性。
作為文字提示的替代品,meta prompts很好地填補了text-to-image擴散模型與視覺感知任務之間的溝壑。
基於元提示的特徵重組
#擴散模型透過其固有的設計,在去雜訊UNet中生成多尺度特徵,這些特徵在接近輸出層時聚焦於更細緻、低階的細節資訊。
雖然這種低階細節對於強調紋理和細粒度的任務來說足夠,但視覺感知任務通常需要理解既包括低階細節的又包括高級語義解釋的內容。
因此,不僅需要產生豐富的特徵,確定這些多尺度特徵的哪種組合方式可以為當前任務提供最佳表徵也非常重要。
這就是meta prompts的作用所在-
#這些prompts在訓練過程中保存了與所使用資料集特定相關的上下文知識。這種上下文知識使meta prompts能夠充當特徵重組的過濾器,引導特徵選取過程,從UNet產生的眾多特徵中篩選出與任務最相關的特徵。
團隊使用點積的方式將UNet的多尺度特徵的豐富性與meta prompts的任務適應性結合。
考慮多尺度特徵,其中各。和表示特徵圖的高度和寬度。 Meta prompts 。每個尺度上重排的特徵的計算為:
最後,這些經過meta prompts過濾的特徵隨後輸入到特定任務的解碼器中。
基於可學習的時間調製特徵的recurrent refinement
在擴散模型中,加入雜訊然後多步去雜訊的迭代過程構成了影像產生的框架。
受此機制的啟發,技術團隊為視覺感知任務設計了一個簡單的recurrent refinement過程-沒有向輸出特徵中添加噪聲,而是直接將UNet的輸出特徵循環輸入到UNet中。
同時為了解決隨著模型通過循環,輸入特徵的分佈會發生變化但UNet的參數保持不變的不一致的問題,技術團隊對於每個循環引入了可學習的獨特的timestep embeddings,以調製UNet的參數。
這確保了網路對於不同步驟中輸入特徵的變化性保持適應性和響應性,優化了特徵提取過程,並增強了模型在視覺識別任務中的表現。
結果顯示,此方法在多個知覺任務資料集上都取得了最優。
這篇文章提出的方法和技術有廣泛的應用前景,可以在多個領域內推動技術的發展和創新:
智慧創作團隊是位元組跳動AI&多媒體技術中台,涵蓋了電腦視覺、影音編輯、特效處理等技術領域,借助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿演算法-工程系統-產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力與產業解決方案。
目前,智慧創作團隊已透過位元組跳動旗下的雲端服務平台火山引擎向企業開放技術能力與服務。更多大模型演算法相關職位開放中,歡迎點選「閱讀原文」查看。
以上是位元組復旦團隊創新的「元提示」策略提升了擴散模型影像理解的效能,達到了前所未有的水平!的詳細內容。更多資訊請關注PHP中文網其他相關文章!