「場景控制傳送門：四合一物體傳送，上交&螞蟻出品」-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

「場景控制傳送門：四合一物體傳送，上交&螞蟻出品」

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 12, 2023 pm 04:05 PM

理論影像合成圖像編輯

在常見的影像編輯操作中，影像合成是指將一張圖片的前景物件與另一張背景圖片結合，產生一張合成圖的過程。合成後的圖像在視覺效果上類似於將前景物體從一張圖片傳送到另一張背景圖片上，如下圖所示

圖像合成在藝術創作、海報設計、電子商務、虛擬實境、資料增廣等領域被廣泛使用

透過簡單的剪貼所得到的合成圖可能會存在許多問題。在先前的研究工作中，影像合成衍生出不同的子任務，分別解決不同的子問題。舉例來說，影像混合旨在解決前景和背景之間不自然的邊界。影像和諧化旨在調整前景的光照使其與背景和諧。視角調整旨在調整前景的姿態，使其與背景相符。物體放置旨在為前景物體預測合適的位置、大小、透視角度。陰影生成旨在為前景物體在背景上產生合理的陰影

根據下圖所示，先前的研究工作以串行或並行的方式執行上述子任務，以獲得逼真自然的合成圖像。在串列框架中，我們可以根據實際需求有選擇性地執行部分子任務

在平行框架下，目前流行的方法是使用擴散模型。它接受一張帶有前景邊界框的背景圖片和一張前景物體圖片作為輸入，直接生成最終的合成圖像。這樣可以使得前景物體與背景圖片無縫融合，光照和陰影效果合理，姿態與背景相適應

這個平行框架相當於同時執行多個子任務，無法有選擇性地執行部分子任務，不具有可控性，可能會對前景物體的姿態或顏色帶來不必要或不合理的改變

需要重寫的是：

# #為了增強平行框架的可控性並有選擇性地執行部分子任務，我們提出了可控影像合成模型Controllable Image Composition (ControlCom)。如下圖所示，我們使用一個指示向量作為擴散模型的條件訊息，以控制合成圖中前景物體的屬性。指示向量是一個二維的二值向量，其中每個維度分別控制是否調整前景物體的光照屬性和姿態屬性，其中1表示調整，0表示保留

具體來說，(0,0 )表示既不改變前景光照，也不改變前景姿態，只是將物體無縫融入背景圖片，相當於影像混合（image blending）。 (1,0)表示只改變前景光照使其與背景和諧，保留前景姿態，相當於影像和諧化（image harmonization）。 (0,1)表示只改變前景姿態使其與背景匹配，保留前景光照，相當於視角調整（view synthesis）。 (1,1)表示同時改變前景的光照和姿態，相當於現在的不可控平行影像合成

我們將四種任務納入同一個框架，透過指示向量實現了四合一物體傳送門的功能，可以將物件傳送到場景中的指定位置。這項工作是由上海交通大學和螞蟻集團合作完成的，程式碼和模型即將開源

請點擊以下連結查看論文：https://arxiv.org/ abs/2308.10040

程式碼模型連結：https://github.com/bcmi/ControlCom-Image-Composition

在下面的圖中，我們展示了可控圖像合成的功能

左邊一列，前景物體的姿態原本就和背景圖片適配，使用者可能希望保留前景物體的姿態。先前的方法 PbE [1]、ObjectStitch [2] 會對前景物體的姿態做出不必要且不可控的改變。我們方法的 (1,0) 版本能夠保留前景物體的姿態，將前景物體無縫融入背景圖片且光照和諧

右側的一列中，前景物體的光照本應與背景光照相同。過去的方法可能會導致前景物體的顏色發生意外的變化，例如車輛和服裝的顏色。我們的方法（版本0.1）能夠保留前景物體的顏色，並同時調整其姿態，使其自然地融入背景圖片中

接下來，我們展示更多我們方法四個版本 (0,0),(1,0),(0,1),(1,1) 的結果。可以看出在使用不同指示向量的情況下，我們的方法能夠選擇性地調整前景物體的部分屬性，有效控制合成圖的效果，滿足使用者不同的需求。

我們需要重新寫的內容是：能夠實現四種功能的模型結構是什麼樣的呢？我們的方法採用了以下模型結構，模型的輸入包括帶有前景邊界框的背景圖片和前景物體圖片，將前景物體的特徵和指示向量結合到擴散模型中

我們重新提取了前景物體的全局特徵和局部特徵，並先融合全局特徵，再融合局部特徵。在局部融合的過程中，我們使用了對齊的前景特徵圖進行特徵調製，以實現更好的細節保留。同時，在全局融合和局部融合中都使用了指示向量，以更充分地控制前景物體的屬性

我們使用預訓練的穩定擴散演算法，基於OpenImage的190萬張圖片來訓練模型。為了同時訓練四個子任務，我們設計了一套資料處理和增強的流程。有關數據和訓練的詳細信息，請參閱論文

我們在COCOEE數據集和自己構建的數據集上進行了測試。由於先前的方法只能實現不可控的影像合成，所以我們與(1,1)版本和先前的方法進行了比較。比較結果如下圖所示，PCTNet是一種影像和諧化方法，能夠保留物體的細節，但無法調整前景的姿態，也無法補足全前景物體。其他方法能夠產生相同種類的物體，但在細節保留方面效果較差，例如衣服的款式、杯子的紋理、鳥的羽毛顏色等等

我們的方法相比之下能夠更好地保留前景物體的細節，補全不完整的前景物體，並且調整前景物體的光照、姿勢以及與背景的適配

「場景控制傳送門：四合一物體傳送，上交&螞蟻出品」

這項工作是對可控影像合成的首次嘗試，任務非常困難，仍然存在許多不足之處，模型的表現不夠穩定和穩健。此外，除了光線和姿態之外，前景物體的屬性還可以進一步細化，如何實現更細粒度的可控圖像合成是一個更具挑戰性的任務

為了保持原意不變，需要重寫的內容是：參考文獻

楊，古，張，張，陳，孫，陳，文（2023年）。以範例為基礎的影像編輯與擴散模型。在CVPR中

[2] 宋永忠，張智，林志龍，科恩，S. D.，普萊斯，B. L.，張靜，金素英，阿里亞加，D. G. 2023。 ObjectStitch：生成式物件合成。在CVPR中

以上是「場景控制傳送門：四合一物體傳送，上交&螞蟻出品」的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機，要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點：68％的員工在工作量上掙扎，導致BUR

AI可以理解嗎？中國房間的論點說不，但是對嗎？Apr 24, 2025 am 11:18 AM

約翰·塞爾（John Searle）的中國房間論點：對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。想像一個人，對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比，中國的科技巨頭在AI開發方面的課程不同。他們不專注於技術基準和API集成，而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP：賦能AI系統訪問外部工具模型上下文協議（MCP）讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持，MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而，實施MCP服務器存在一些挑戰，包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者：Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc