搜尋
首頁科技週邊人工智慧「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

在常見的影像編輯操作中,影像合成是指將一張圖片的前景物件與另一張背景圖片結合,產生一張合成圖的過程。合成後的圖像在視覺效果上類似於將前景物體從一張圖片傳送到另一張背景圖片上,如下圖所示

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

圖像合成在藝術創作、海報設計、電子商務、虛擬實境、資料增廣等領域被廣泛使用

透過簡單的剪貼所得到的合成圖可能會存在許多問題。在先前的研究工作中,影像合成衍生出不同的子任務,分別解決不同的子問題。舉例來說,影像混合旨在解決前景和背景之間不自然的邊界。影像和諧化旨在調整前景的光照使其與背景和諧。視角調整旨在調整前景的姿態,使其與背景相符。物體放置旨在為前景物體預測合適的位置、大小、透視角度。陰影生成旨在為前景物體在背景上產生合理的陰影

根據下圖所示,先前的研究工作以串行或並行的方式執行上述子任務,以獲得逼真自然的合成圖像。在串列框架中,我們可以根據實際需求有選擇性地執行部分子任務

在平行框架下,目前流行的方法是使用擴散模型。它接受一張帶有前景邊界框的背景圖片和一張前景物體圖片作為輸入,直接生成最終的合成圖像。這樣可以使得前景物體與背景圖片無縫融合,光照和陰影效果合理,姿態與背景相適應

這個平行框架相當於同時執行多個子任務,無法有選擇性地執行部分子任務,不具有可控性,可能會對前景物體的姿態或顏色帶來不必要或不合理的改變

需要重寫的是:

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
# #為了增強平行框架的可控性並有選擇性地執行部分子任務,我們提出了可控影像合成模型Controllable Image Composition (ControlCom)。如下圖所示,我們使用一個指示向量作為擴散模型的條件訊息,以控制合成圖中前景物體的屬性。指示向量是一個二維的二值向量,其中每個維度分別控制是否調整前景物體的光照屬性和姿態屬性,其中1表示調整,0表示保留

具體來說,(0,0 )表示既不改變前景光照,也不改變前景姿態,只是將物體無縫融入背景圖片,相當於影像混合(image blending)。 (1,0)表示只改變前景光照使其與背景和諧,保留前景姿態,相當於影像和諧化(image harmonization)。 (0,1)表示只改變前景姿態使其與背景匹配,保留前景光照,相當於視角調整(view synthesis)。 (1,1)表示同時改變前景的光照和姿態,相當於現在的不可控平行影像合成

我們將四種任務納入同一個框架,透過指示向量實現了四合一物體傳送門的功能,可以將物件傳送到場景中的指定位置。這項工作是由上海交通大學和螞蟻集團合作完成的,程式碼和模型即將開源

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
請點擊以下連結查看論文:https://arxiv.org/ abs/2308.10040

程式碼模型連結:https://github.com/bcmi/ControlCom-Image-Composition

在下面的圖中,我們展示了可控圖像合成的功能

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
左邊一列,前景物體的姿態原本就和背景圖片適配,使用者可能希望保留前景物體的姿態。先前的方法 PbE [1]、ObjectStitch [2] 會對前景物體的姿態做出不必要且不可控的改變。我們方法的 (1,0) 版本能夠保留前景物體的姿態,將前景物體無縫融入背景圖片且光照和諧

右側的一列中,前景物體的光照本應與背景光照相同。過去的方法可能會導致前景物體的顏色發生意外的變化,例如車輛和服裝的顏色。我們的方法(版本0.1)能夠保留前景物體的顏色,並同時調整其姿態,使其自然地融入背景圖片中

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

接下來,我們展示更多我們方法四個版本 (0,0),(1,0),(0,1),(1,1) 的結果。可以看出在使用不同指示向量的情況下,我們的方法能夠選擇性地調整前景物體的部分屬性,有效控制合成圖的效果,滿足使用者不同的需求。

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

我們需要重新寫的內容是:能夠實現四種功能的模型結構是什麼樣的呢?我們的方法採用了以下模型結構,模型的輸入包括帶有前景邊界框的背景圖片和前景物體圖片,將前景物體的特徵和指示向量結合到擴散模型中

我們重新提取了前景物體的全局特徵和局部特徵,並先融合全局特徵,再融合局部特徵。在局部融合的過程中,我們使用了對齊的前景特徵圖進行特徵調製,以實現更好的細節保留。同時,在全局融合和局部融合中都使用了指示向量,以更充分地控制前景物體的屬性

我們使用預訓練的穩定擴散演算法,基於OpenImage的190萬張圖片來訓練模型。為了同時訓練四個子任務,我們設計了一套資料處理和增強的流程。有關數據和訓練的詳細信息,請參閱論文

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

我們在COCOEE數據集和自己構建的數據集上進行了測試。由於先前的方法只能實現不可控的影像合成,所以我們與(1,1)版本和先前的方法進行了比較。比較結果如下圖所示,PCTNet是一種影像和諧化方法,能夠保留物體的細節,但無法調整前景的姿態,也無法補足全前景物體。其他方法能夠產生相同種類的物體,但在細節保留方面效果較差,例如衣服的款式、杯子的紋理、鳥的羽毛顏色等等

我們的方法相比之下能夠更好地保留前景物體的細節,補全不完整的前景物體,並且調整前景物體的光照、姿勢以及與背景的適配

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

這項工作是對可控影像合成的首次嘗試,任務非常困難,仍然存在許多不足之處,模型的表現不夠穩定和穩健。此外,除了光線和姿態之外,前景物體的屬性還可以進一步細化,如何實現更細粒度的可控圖像合成是一個更具挑戰性的任務

為了保持原意不變,需要重寫的內容是:參考文獻

楊,古,張,張,陳,孫,陳,文(2023年)。以範例為基礎的影像編輯與擴散模型。在CVPR中

[2] 宋永忠,張智,林志龍,科恩,S. D.,普萊斯,B. L.,張靜,金素英,阿里亞加,D. G. 2023。 ObjectStitch:生成式物件合成。在CVPR中

以上是「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
五个时间序列预测的深度学习模型对比总结五个时间序列预测的深度学习模型对比总结May 05, 2023 pm 05:16 PM

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶Oct 27, 2023 pm 03:13 PM

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子Jan 04, 2024 pm 05:38 PM

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊Apr 17, 2024 am 08:40 AM

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Aug 26, 2023 pm 09:01 PM

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊Mar 27, 2024 pm 02:16 PM

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

手机摄影技术让以假乱真的好莱坞级电影特效视频走红手机摄影技术让以假乱真的好莱坞级电影特效视频走红Sep 07, 2023 am 09:41 AM

一个普通人用一台手机就能制作电影特效的时代已经来了。最近,一个名叫Simulon的3D技术公司发布了一系列特效视频,视频中的3D机器人与环境无缝融合,而且光影效果非常自然。呈现这些效果的APP也叫Simulon,它能让使用者通过手机摄像头的实时拍摄,直接渲染出CGI(计算机生成图像)特效,就跟打开美颜相机拍摄一样。在具体操作中,你要先上传一个3D模型(比如图中的机器人)。Simulon会将这个模型放置到你拍摄的现实世界中,并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐Jan 16, 2024 am 11:24 AM

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境