Text-to-image(T2I)擴散模型在產生高清晰度影像方面表現卓越,這要歸功於其在大規模影像-文字對上的預訓練。
這引發了一個自然的問題:擴散模型是否可以用來解決視覺知覺任務?
最近,位元組跳動和復旦大學的團隊提出了擴散模型來處理視覺任務。
論文網址:https://arxiv.org/abs/2312.14733
開源專案: https://github.com/fudan-zvg/meta-prompts
#團隊的關鍵洞察是將可學習的元提示引入預訓練的擴散模型中,以提取適用於特定知覺任務的特徵。
技術介紹
團隊將text-to-image擴散模型作為特徵提取器應用於視覺感知任務。
首先,輸入影像經過VQVAE編碼器壓縮,解析度降低為原始大小的1/8,產生latent space特徵表示。值得注意的是,VQVAE編碼器參數固定,不參與後續訓練。
下一步,將未加入雜訊的資料送入UNet進行特徵擷取。為了更好地適應不同任務,UNet同時接收調製的時間步嵌入和多個元提示,以產生與形狀一致的特徵。
在整個過程中,為了增強特徵表達,該方法進行了步驟的recurrent refinement。這使得UNet內不同層的特徵能夠更好地互動融合。在第次循環中,UNet的參數由特定的可學習的時間調製特徵調節。
最終,UNet產生的多尺度特徵輸入到專為目標視覺任務設計的解碼器中。
可學習的元提示(meta prompts)設計
Stable diffusion model採用UNet架構,透過交叉注意力將文字提示融入圖像特徵中,實現了文生圖。這種整合確保了圖像生成在語境和語義上的準確性。
然而,視覺感知任務的多樣性超越了這個範疇,因為圖像理解面臨著不同的挑戰,往往缺乏文字訊息作為指導,使得以文字驅動的方法有時顯得不切實際。
為應對這項挑戰,技術團隊的方法採用了更為多樣的策略-不依賴外部文字提示,而是設計了一種內部的可學習元提示,稱為meta prompts,這些meta prompts被整合到擴散模型中,以適應感知任務。
Meta prompts以矩陣 的形式表示,其中表示meta prompts的數量,表示維度。具備meta prompts的感知擴散模型避免了對外部文字提示的需求,例如資料集類別標籤或圖像標題,也無需預先訓練的文字編碼器來產生最終的文字提示。
Meta prompts可以根據目標任務和資料集進行端到端的訓練,從而為去噪UNet建立特別客製化的適應條件。這些meta prompts包含豐富的、適應於特定任務的語意資訊。例如:
- 在語意分割任務中,meta prompts有效地展示了對類別的識別能力,相同的meta prompts傾向於激活同一類別的特徵。
- 在深度估計任務中,meta prompts表現出對深度的感知能力,激活值隨深度變化,使prompts能夠集中關註一致距離的物體。
- 在姿態估計中,meta prompts展現出一套不同的能力,特別是關鍵點的感知,這有助於人體姿態檢測。
這些定性結果共同突顯了技術團隊提出的meta prompts在各種任務中對任務相關激活能力的有效性。
作為文字提示的替代品,meta prompts很好地填補了text-to-image擴散模型與視覺感知任務之間的溝壑。
基於元提示的特徵重組
#擴散模型透過其固有的設計,在去雜訊UNet中生成多尺度特徵,這些特徵在接近輸出層時聚焦於更細緻、低階的細節資訊。
雖然這種低階細節對於強調紋理和細粒度的任務來說足夠,但視覺感知任務通常需要理解既包括低階細節的又包括高級語義解釋的內容。
因此,不僅需要產生豐富的特徵,確定這些多尺度特徵的哪種組合方式可以為當前任務提供最佳表徵也非常重要。
這就是meta prompts的作用所在-
#這些prompts在訓練過程中保存了與所使用資料集特定相關的上下文知識。這種上下文知識使meta prompts能夠充當特徵重組的過濾器,引導特徵選取過程,從UNet產生的眾多特徵中篩選出與任務最相關的特徵。
團隊使用點積的方式將UNet的多尺度特徵的豐富性與meta prompts的任務適應性結合。
考慮多尺度特徵,其中各。和表示特徵圖的高度和寬度。 Meta prompts 。每個尺度上重排的特徵的計算為:
最後,這些經過meta prompts過濾的特徵隨後輸入到特定任務的解碼器中。
基於可學習的時間調製特徵的recurrent refinement
在擴散模型中,加入雜訊然後多步去雜訊的迭代過程構成了影像產生的框架。
受此機制的啟發,技術團隊為視覺感知任務設計了一個簡單的recurrent refinement過程-沒有向輸出特徵中添加噪聲,而是直接將UNet的輸出特徵循環輸入到UNet中。
同時為了解決隨著模型通過循環,輸入特徵的分佈會發生變化但UNet的參數保持不變的不一致的問題,技術團隊對於每個循環引入了可學習的獨特的timestep embeddings,以調製UNet的參數。
這確保了網路對於不同步驟中輸入特徵的變化性保持適應性和響應性,優化了特徵提取過程,並增強了模型在視覺識別任務中的表現。
結果顯示,此方法在多個知覺任務資料集上都取得了最優。
#應用落地與展望
這篇文章提出的方法和技術有廣泛的應用前景,可以在多個領域內推動技術的發展和創新:
- 視覺感知任務的改進:研究能夠提升各種視覺感知任務的表現,如影像分割、深度估計和姿態估計。這些改進可應用於自動駕駛、醫學影像分析、機器人視覺系統等領域。
- 增強的電腦視覺模型:所提出的技術可以使電腦視覺模型在處理複雜場景時更加準確和高效,特別是在缺乏明確文字描述的情況下。這對於圖像內容理解等應用尤其重要。
- 跨領域應用:該研究的方法和發現可以激勵跨領域的研究和應用,例如在藝術創作、虛擬實境、擴增實境中,用於提高影像和影片的品質和互動性。
- 長期展望:隨著科技的進步,這些方法可能會進一步完善,帶來更先進的影像產生和內容理解技術。
團隊介紹
智慧創作團隊是位元組跳動AI&多媒體技術中台,涵蓋了電腦視覺、影音編輯、特效處理等技術領域,借助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿演算法-工程系統-產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力與產業解決方案。
目前,智慧創作團隊已透過位元組跳動旗下的雲端服務平台火山引擎向企業開放技術能力與服務。更多大模型演算法相關職位開放中,歡迎點選「閱讀原文」查看。
以上是位元組復旦團隊創新的「元提示」策略提升了擴散模型影像理解的效能,達到了前所未有的水平!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver Mac版
視覺化網頁開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3漢化版
中文版,非常好用