搜尋
首頁科技週邊人工智慧「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

在常見的影像編輯操作中,影像合成是指將一張圖片的前景物件與另一張背景圖片結合,產生一張合成圖的過程。合成後的圖像在視覺效果上類似於將前景物體從一張圖片傳送到另一張背景圖片上,如下圖所示

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

圖像合成在藝術創作、海報設計、電子商務、虛擬實境、資料增廣等領域被廣泛使用

透過簡單的剪貼所得到的合成圖可能會存在許多問題。在先前的研究工作中,影像合成衍生出不同的子任務,分別解決不同的子問題。舉例來說,影像混合旨在解決前景和背景之間不自然的邊界。影像和諧化旨在調整前景的光照使其與背景和諧。視角調整旨在調整前景的姿態,使其與背景相符。物體放置旨在為前景物體預測合適的位置、大小、透視角度。陰影生成旨在為前景物體在背景上產生合理的陰影

根據下圖所示,先前的研究工作以串行或並行的方式執行上述子任務,以獲得逼真自然的合成圖像。在串列框架中,我們可以根據實際需求有選擇性地執行部分子任務

在平行框架下,目前流行的方法是使用擴散模型。它接受一張帶有前景邊界框的背景圖片和一張前景物體圖片作為輸入,直接生成最終的合成圖像。這樣可以使得前景物體與背景圖片無縫融合,光照和陰影效果合理,姿態與背景相適應

這個平行框架相當於同時執行多個子任務,無法有選擇性地執行部分子任務,不具有可控性,可能會對前景物體的姿態或顏色帶來不必要或不合理的改變

需要重寫的是:

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
# #為了增強平行框架的可控性並有選擇性地執行部分子任務,我們提出了可控影像合成模型Controllable Image Composition (ControlCom)。如下圖所示,我們使用一個指示向量作為擴散模型的條件訊息,以控制合成圖中前景物體的屬性。指示向量是一個二維的二值向量,其中每個維度分別控制是否調整前景物體的光照屬性和姿態屬性,其中1表示調整,0表示保留

具體來說,(0,0 )表示既不改變前景光照,也不改變前景姿態,只是將物體無縫融入背景圖片,相當於影像混合(image blending)。 (1,0)表示只改變前景光照使其與背景和諧,保留前景姿態,相當於影像和諧化(image harmonization)。 (0,1)表示只改變前景姿態使其與背景匹配,保留前景光照,相當於視角調整(view synthesis)。 (1,1)表示同時改變前景的光照和姿態,相當於現在的不可控平行影像合成

我們將四種任務納入同一個框架,透過指示向量實現了四合一物體傳送門的功能,可以將物件傳送到場景中的指定位置。這項工作是由上海交通大學和螞蟻集團合作完成的,程式碼和模型即將開源

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
請點擊以下連結查看論文:https://arxiv.org/ abs/2308.10040

程式碼模型連結:https://github.com/bcmi/ControlCom-Image-Composition

在下面的圖中,我們展示了可控圖像合成的功能

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
左邊一列,前景物體的姿態原本就和背景圖片適配,使用者可能希望保留前景物體的姿態。先前的方法 PbE [1]、ObjectStitch [2] 會對前景物體的姿態做出不必要且不可控的改變。我們方法的 (1,0) 版本能夠保留前景物體的姿態,將前景物體無縫融入背景圖片且光照和諧

右側的一列中,前景物體的光照本應與背景光照相同。過去的方法可能會導致前景物體的顏色發生意外的變化,例如車輛和服裝的顏色。我們的方法(版本0.1)能夠保留前景物體的顏色,並同時調整其姿態,使其自然地融入背景圖片中

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

接下來,我們展示更多我們方法四個版本 (0,0),(1,0),(0,1),(1,1) 的結果。可以看出在使用不同指示向量的情況下,我們的方法能夠選擇性地調整前景物體的部分屬性,有效控制合成圖的效果,滿足使用者不同的需求。

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

我們需要重新寫的內容是:能夠實現四種功能的模型結構是什麼樣的呢?我們的方法採用了以下模型結構,模型的輸入包括帶有前景邊界框的背景圖片和前景物體圖片,將前景物體的特徵和指示向量結合到擴散模型中

我們重新提取了前景物體的全局特徵和局部特徵,並先融合全局特徵,再融合局部特徵。在局部融合的過程中,我們使用了對齊的前景特徵圖進行特徵調製,以實現更好的細節保留。同時,在全局融合和局部融合中都使用了指示向量,以更充分地控制前景物體的屬性

我們使用預訓練的穩定擴散演算法,基於OpenImage的190萬張圖片來訓練模型。為了同時訓練四個子任務,我們設計了一套資料處理和增強的流程。有關數據和訓練的詳細信息,請參閱論文

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

我們在COCOEE數據集和自己構建的數據集上進行了測試。由於先前的方法只能實現不可控的影像合成,所以我們與(1,1)版本和先前的方法進行了比較。比較結果如下圖所示,PCTNet是一種影像和諧化方法,能夠保留物體的細節,但無法調整前景的姿態,也無法補足全前景物體。其他方法能夠產生相同種類的物體,但在細節保留方面效果較差,例如衣服的款式、杯子的紋理、鳥的羽毛顏色等等

我們的方法相比之下能夠更好地保留前景物體的細節,補全不完整的前景物體,並且調整前景物體的光照、姿勢以及與背景的適配

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

這項工作是對可控影像合成的首次嘗試,任務非常困難,仍然存在許多不足之處,模型的表現不夠穩定和穩健。此外,除了光線和姿態之外,前景物體的屬性還可以進一步細化,如何實現更細粒度的可控圖像合成是一個更具挑戰性的任務

為了保持原意不變,需要重寫的內容是:參考文獻

楊,古,張,張,陳,孫,陳,文(2023年)。以範例為基礎的影像編輯與擴散模型。在CVPR中

[2] 宋永忠,張智,林志龍,科恩,S. D.,普萊斯,B. L.,張靜,金素英,阿里亞加,D. G. 2023。 ObjectStitch:生成式物件合成。在CVPR中

以上是「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
微軟工作趨勢指數2025顯示工作場所容量應變微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

AI可以理解嗎?中國房間的論點說不,但是對嗎?AI可以理解嗎?中國房間的論點說不,但是對嗎?Apr 24, 2025 am 11:18 AM

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDRGoogle照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境