在常見的影像編輯操作中,影像合成是指將一張圖片的前景物件與另一張背景圖片結合,產生一張合成圖的過程。合成後的圖像在視覺效果上類似於將前景物體從一張圖片傳送到另一張背景圖片上,如下圖所示

圖像合成在藝術創作、海報設計、電子商務、虛擬實境、資料增廣等領域被廣泛使用
透過簡單的剪貼所得到的合成圖可能會存在許多問題。在先前的研究工作中,影像合成衍生出不同的子任務,分別解決不同的子問題。舉例來說,影像混合旨在解決前景和背景之間不自然的邊界。影像和諧化旨在調整前景的光照使其與背景和諧。視角調整旨在調整前景的姿態,使其與背景相符。物體放置旨在為前景物體預測合適的位置、大小、透視角度。陰影生成旨在為前景物體在背景上產生合理的陰影
根據下圖所示,先前的研究工作以串行或並行的方式執行上述子任務,以獲得逼真自然的合成圖像。在串列框架中,我們可以根據實際需求有選擇性地執行部分子任務
在平行框架下,目前流行的方法是使用擴散模型。它接受一張帶有前景邊界框的背景圖片和一張前景物體圖片作為輸入,直接生成最終的合成圖像。這樣可以使得前景物體與背景圖片無縫融合,光照和陰影效果合理,姿態與背景相適應
這個平行框架相當於同時執行多個子任務,無法有選擇性地執行部分子任務,不具有可控性,可能會對前景物體的姿態或顏色帶來不必要或不合理的改變
需要重寫的是:



接下來,我們展示更多我們方法四個版本 (0,0),(1,0),(0,1),(1,1) 的結果。可以看出在使用不同指示向量的情況下,我們的方法能夠選擇性地調整前景物體的部分屬性,有效控制合成圖的效果,滿足使用者不同的需求。

我們需要重新寫的內容是:能夠實現四種功能的模型結構是什麼樣的呢?我們的方法採用了以下模型結構,模型的輸入包括帶有前景邊界框的背景圖片和前景物體圖片,將前景物體的特徵和指示向量結合到擴散模型中
我們重新提取了前景物體的全局特徵和局部特徵,並先融合全局特徵,再融合局部特徵。在局部融合的過程中,我們使用了對齊的前景特徵圖進行特徵調製,以實現更好的細節保留。同時,在全局融合和局部融合中都使用了指示向量,以更充分地控制前景物體的屬性
我們使用預訓練的穩定擴散演算法,基於OpenImage的190萬張圖片來訓練模型。為了同時訓練四個子任務,我們設計了一套資料處理和增強的流程。有關數據和訓練的詳細信息,請參閱論文

我們在COCOEE數據集和自己構建的數據集上進行了測試。由於先前的方法只能實現不可控的影像合成,所以我們與(1,1)版本和先前的方法進行了比較。比較結果如下圖所示,PCTNet是一種影像和諧化方法,能夠保留物體的細節,但無法調整前景的姿態,也無法補足全前景物體。其他方法能夠產生相同種類的物體,但在細節保留方面效果較差,例如衣服的款式、杯子的紋理、鳥的羽毛顏色等等
我們的方法相比之下能夠更好地保留前景物體的細節,補全不完整的前景物體,並且調整前景物體的光照、姿勢以及與背景的適配
這項工作是對可控影像合成的首次嘗試,任務非常困難,仍然存在許多不足之處,模型的表現不夠穩定和穩健。此外,除了光線和姿態之外,前景物體的屬性還可以進一步細化,如何實現更細粒度的可控圖像合成是一個更具挑戰性的任務
為了保持原意不變,需要重寫的內容是:參考文獻
楊,古,張,張,陳,孫,陳,文(2023年)。以範例為基礎的影像編輯與擴散模型。在CVPR中
[2] 宋永忠,張智,林志龍,科恩,S. D.,普萊斯,B. L.,張靜,金素英,阿里亞加,D. G. 2023。 ObjectStitch:生成式物件合成。在CVPR中
以上是「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境