搜尋
首頁科技週邊人工智慧真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

得到一張好看的照片越來越容易了。

假期出遊,肯定少不了拍照留念。不過,大部分在景觀拍攝的照片或多或少都有些遺憾,背景裡不是多了些什麼,就是少了些什麼。

獲得一張「完美」的圖像,是 CV 研究人員長期以來努力的目標之一。日前,Google Research 和康乃爾大學的研究人員合作,提出了一種「真實的影像補全」(Authentic Image Completion)技術——用於影像補全的生成模型 RealFill。

RealFill 模型的優勢是可以使用少量的場景參考影像進行個人化設置,而這些參考影像無須與目標影像對齊,甚至可以在視角、光線條件、相機光圈或影像風格等方面有極大的差異。一旦完成個人化設置,RealFill 就能夠以忠實於原始場景的方式,用視覺上引人入勝的內容來補全目標影像。

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

  • 請點擊以下連結查看論文:https://arxiv.org/abs/2309.16668

  • #專案頁面連結:https://realfill.github.io/

補畫(inpainting)和擴畫(outpainting)模型是能夠在圖像的未知區域產生高品質、合理的圖像內容的技術,但這些模型生成的內容必然是不真實的,因為這些模型在真實場景的上下文資訊方面存在不足。相較之下,RealFill 能夠產生「應該」出現在那裡的內容,從而使影像補全的結果更為真實。

作者在論文中指出,他們定義了一個新的影像補全問題-「真實影像補全」(Authentic Image Completion)。不同於傳統的生成型影像修復(替代缺失區域的內容可能與原始場景不一致),真實影像補全的目標是使補全的內容盡可能忠實於原始場景,用「應該出現在那裡」的內容來補全目標影像,而不是用「可能在那裡」的內容。

作者表示,RealFill 是第一個透過在過程中添加更多的條件(即添加參考圖像)來擴展生成型圖像修復模型表達力的方法。

在一個涵蓋了一系列多樣化且具有挑戰性的場景的新的影像補全基準測試中,RealFill 的表現大大超過了現有的方法。

方法

#RealFill 的目標是在盡可能保持真實性的前提下,使用少量的參考影像來補全給定目標影像的缺失部分。具體來說,給定最多 5 張參考影像,和一張大致捕捉到相同場景(但佈局或外觀可能不同)的目標影像。

對於給定的場景,研究人員首先透過在參考影像和目標影像上微調一個預先訓練的 inpainting 擴散模型,創建一個個人化的生成模型。這個微調過程被設計成讓微調後的模型不僅保持良好的影像先驗,還能學習輸入影像中的場景內容、光線和風格。然後,使用這個微調過的模型,透過標準的擴散採樣過程來填充目標影像中的缺失區域。 真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

值得注意的是,為了實際的應用價值,模型特別關注更具挑戰性、無約束的情況,即目標影像和參考影像可能有非常不同的視點、環境條件、相機光圈、影像風格,甚至包括移動的物件。

實驗結果

#根據左側的參考影像,RealFill 能夠對右側的目標影像進行擴展(uncrop)或修復(inpaint),產生的結果不僅視覺上吸引人,而且與參考影像保持一致,即使參考影像和目標影像在視點、光圈、光照、影像風格和物體運動等方面存在較大差異。

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill#RealFill 模型的輸出效果。給定左側的參考影像,RealFill 能夠擴充對應的右側目標影像。白色框內的區域被提供給網路作為已知的像素,而白色框外的區域都是產生的。結果顯示,即使參考影像和目標影像之間存在包括視點、光圈、光照、影像風格和物體運動等巨大差異,RealFill 也能產生高品質且忠實於參考影像的影像。來源:論文

對照實驗

#研究人員比較了 RealFill 模型和其他的基準方法。相較之下,RealFill 產生的結果品質高,在場景保真度和與參考影像的一致性方面,RealFill的表現較好。

Paint-by-Example 無法實現高度的場景保真,因為它依賴 CLIP 嵌入,而 CLIP 嵌入只能捕獲高級語義資訊。

Stable Diffusion Inpainting 雖然可以產生看似合理的結果,但由於 prompt 的表達能力有限,所以最終產生結果與參考圖像並不一致。

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

RealFill 與其他兩種基準方法的比較。覆蓋了一層透明白色遮罩的區域是目標影像未修改的部分。資料來源:realfill.github.io

#限制點

##研究者也討論了RealFill 模型的一些潛在的問題和限制,包括處理速度、對視點變化的處理能力,以及對基礎模型具有挑戰性的情況的處理能力。具體來說:

RealFill 需要對輸入影像進行基於梯度的微調過程,這使得它的運行速度相對較慢。
當參考影像和目標影像之間的視點變化非常大時,RealFill 往往無法恢復 3D 場景,特別是當只有一張參考影像的時候。

由於RealFill 主要依賴從基礎的預訓練模型繼承的圖像先驗,因此它無法處理那些對基礎模型來說具有挑戰性的情況,例如stable diffusion 模型無法處理好文字。

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

最後,作者向合作者表達了感激之情:

我們要感謝Rundi Wu、Qianqian Wang、Viraj Shah、Ethan Weber、Zhengqi Li 、Kyle Genova、Boyang Deng、Maya Goldenberg、Noah Snavely、Ben Poole、Ben Mildenhall、Alex Rav-Acha、Pratul Srinivasan、Dor Verbin 和Jon Barron 的寶貴討論和反饋,同時也感謝Zeya Peng、Rundi Wu、Shan Nan 對評估資料集的貢獻。我們特別感謝 Jason Baldridge、Kihyuk Sohn、Kathy Meier-Hellstern 和 Nicole Brichtova 對專案的回饋和支持。

請閱讀原始論文並訪問專案主頁以獲取更多資訊

以上是真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
DSA如何弯道超车NVIDIA GPU?DSA如何弯道超车NVIDIA GPU?Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点:1.跟着NVIDIA的技术路线,可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA,但目前的状况是DSA濒临消亡,看不到任何希望另一方面,我们都知道现在大模型正处于风口位置,业界很多人想做大模型芯片,也有很多人想投大模型芯片。但是,大模型芯片的设计关键在哪,大带宽大内存的重要性好像大家都知道,但做出来的芯片跟NVIDIA相比,又有何不同?带着问题,本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义,我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日,阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat,并且可以免费商用。Qwen-14B在多个权威评测中表现出色,超过了同等规模的模型,甚至有些指标接近Llama2-70B。此前,阿里云还开源了70亿参数模型Qwen-7B,仅一个多月的时间下载量就突破了100万,成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型,相比同类模型使用了更多的高质量数据,整体训练数据超过3万亿Token,使得模型具备更强大的推

ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项ICCV 2023揭晓:ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV(InternationalConferenceonComputerVision)本周开幕作为全球计算机视觉领域顶级的学术会议,ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下,屡创新高在今天的开幕式上,ICCV官方公布了今年的论文数据:本届ICCV共有8068篇投稿,其中有2160篇被接收,录用率为26.8%,略高于上一届ICCV2021的录用率25.9%在论文主题方面,官方也公布了相关数据:多视角和传感器的3D技术热度最高在今天的开

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中

百度文心一言全面向全社会开放,率先迈出重要一步百度文心一言全面向全社会开放,率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日,文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”(https://yiyan.baidu.com)进行体验据报道,百度计划推出一系列经过全新重构的AI原生应用,以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日,文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品,文心一言的基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示,当文心

AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验AI技术在蚂蚁集团保险业务中的应用:革新保险服务,带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具,保险为人民群众提供保障和福利,推动经济的稳定和可持续发展。在新的时代背景下,保险行业面临着新的机遇和挑战,需要不断创新和转型,以适应社会需求的变化和经济结构的调整近年来,中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段,积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平,以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力,使保险产品更贴近人民群众的实际

致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑致敬TempleOS,有开发者创建了启动Llama 2的操作系统,网友:8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说,Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来,围绕着该模型的「二创」项目便多了起来。此前7月,特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间,做了一个关于Llama2的有趣项目llama2.c,让用户在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。今天,在Karpathyllama2.c项目的基础上,又有开发者创建了一个启动Llama2的演示操作系统,以及一个

腾讯与中国宋庆龄基金会发布“AI编程第一课”,教育部等四部门联合推荐腾讯与中国宋庆龄基金会发布“AI编程第一课”,教育部等四部门联合推荐Sep 16, 2023 am 09:29 AM

腾讯与中国宋庆龄基金会合作,于9月1日发布了名为“AI编程第一课”的公益项目。该项目旨在为全国零基础的青少年提供AI和编程启蒙平台。只需在微信中搜索“腾讯AI编程第一课”,即可通过官方小程序免费体验该项目由北京师范大学任学术指导单位,邀请全球顶尖高校专家联合参研。“AI编程第一课”首批上线内容结合中国航天、未来交通两项国家重大科技议题,原创趣味探索故事,通过剧本式、“玩中学”的方式,让青少年在1小时的学习实践中认识A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。