搜尋
首頁科技週邊人工智慧真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

得到一張好看的照片越來越容易了。

假期出遊,肯定少不了拍照留念。不過,大部分在景觀拍攝的照片或多或少都有些遺憾,背景裡不是多了些什麼,就是少了些什麼。

獲得一張「完美」的圖像,是 CV 研究人員長期以來努力的目標之一。日前,Google Research 和康乃爾大學的研究人員合作,提出了一種「真實的影像補全」(Authentic Image Completion)技術——用於影像補全的生成模型 RealFill。

RealFill 模型的優勢是可以使用少量的場景參考影像進行個人化設置,而這些參考影像無須與目標影像對齊,甚至可以在視角、光線條件、相機光圈或影像風格等方面有極大的差異。一旦完成個人化設置,RealFill 就能夠以忠實於原始場景的方式,用視覺上引人入勝的內容來補全目標影像。

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

  • 請點擊以下連結查看論文:https://arxiv.org/abs/2309.16668

  • #專案頁面連結:https://realfill.github.io/

補畫(inpainting)和擴畫(outpainting)模型是能夠在圖像的未知區域產生高品質、合理的圖像內容的技術,但這些模型生成的內容必然是不真實的,因為這些模型在真實場景的上下文資訊方面存在不足。相較之下,RealFill 能夠產生「應該」出現在那裡的內容,從而使影像補全的結果更為真實。

作者在論文中指出,他們定義了一個新的影像補全問題-「真實影像補全」(Authentic Image Completion)。不同於傳統的生成型影像修復(替代缺失區域的內容可能與原始場景不一致),真實影像補全的目標是使補全的內容盡可能忠實於原始場景,用「應該出現在那裡」的內容來補全目標影像,而不是用「可能在那裡」的內容。

作者表示,RealFill 是第一個透過在過程中添加更多的條件(即添加參考圖像)來擴展生成型圖像修復模型表達力的方法。

在一個涵蓋了一系列多樣化且具有挑戰性的場景的新的影像補全基準測試中,RealFill 的表現大大超過了現有的方法。

方法

#RealFill 的目標是在盡可能保持真實性的前提下,使用少量的參考影像來補全給定目標影像的缺失部分。具體來說,給定最多 5 張參考影像,和一張大致捕捉到相同場景(但佈局或外觀可能不同)的目標影像。

對於給定的場景,研究人員首先透過在參考影像和目標影像上微調一個預先訓練的 inpainting 擴散模型,創建一個個人化的生成模型。這個微調過程被設計成讓微調後的模型不僅保持良好的影像先驗,還能學習輸入影像中的場景內容、光線和風格。然後,使用這個微調過的模型,透過標準的擴散採樣過程來填充目標影像中的缺失區域。 真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

值得注意的是,為了實際的應用價值,模型特別關注更具挑戰性、無約束的情況,即目標影像和參考影像可能有非常不同的視點、環境條件、相機光圈、影像風格,甚至包括移動的物件。

實驗結果

#根據左側的參考影像,RealFill 能夠對右側的目標影像進行擴展(uncrop)或修復(inpaint),產生的結果不僅視覺上吸引人,而且與參考影像保持一致,即使參考影像和目標影像在視點、光圈、光照、影像風格和物體運動等方面存在較大差異。

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill#RealFill 模型的輸出效果。給定左側的參考影像,RealFill 能夠擴充對應的右側目標影像。白色框內的區域被提供給網路作為已知的像素,而白色框外的區域都是產生的。結果顯示,即使參考影像和目標影像之間存在包括視點、光圈、光照、影像風格和物體運動等巨大差異,RealFill 也能產生高品質且忠實於參考影像的影像。來源:論文

對照實驗

#研究人員比較了 RealFill 模型和其他的基準方法。相較之下,RealFill 產生的結果品質高,在場景保真度和與參考影像的一致性方面,RealFill的表現較好。

Paint-by-Example 無法實現高度的場景保真,因為它依賴 CLIP 嵌入,而 CLIP 嵌入只能捕獲高級語義資訊。

Stable Diffusion Inpainting 雖然可以產生看似合理的結果,但由於 prompt 的表達能力有限,所以最終產生結果與參考圖像並不一致。

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

RealFill 與其他兩種基準方法的比較。覆蓋了一層透明白色遮罩的區域是目標影像未修改的部分。資料來源:realfill.github.io

#限制點

##研究者也討論了RealFill 模型的一些潛在的問題和限制,包括處理速度、對視點變化的處理能力,以及對基礎模型具有挑戰性的情況的處理能力。具體來說:

RealFill 需要對輸入影像進行基於梯度的微調過程,這使得它的運行速度相對較慢。
當參考影像和目標影像之間的視點變化非常大時,RealFill 往往無法恢復 3D 場景,特別是當只有一張參考影像的時候。

由於RealFill 主要依賴從基礎的預訓練模型繼承的圖像先驗,因此它無法處理那些對基礎模型來說具有挑戰性的情況,例如stable diffusion 模型無法處理好文字。

真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill

最後,作者向合作者表達了感激之情:

我們要感謝Rundi Wu、Qianqian Wang、Viraj Shah、Ethan Weber、Zhengqi Li 、Kyle Genova、Boyang Deng、Maya Goldenberg、Noah Snavely、Ben Poole、Ben Mildenhall、Alex Rav-Acha、Pratul Srinivasan、Dor Verbin 和Jon Barron 的寶貴討論和反饋,同時也感謝Zeya Peng、Rundi Wu、Shan Nan 對評估資料集的貢獻。我們特別感謝 Jason Baldridge、Kihyuk Sohn、Kathy Meier-Hellstern 和 Nicole Brichtova 對專案的回饋和支持。

請閱讀原始論文並訪問專案主頁以獲取更多資訊

以上是真實性震撼! Google與康乃爾大學推出真實影像補全技術RealFill的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
您必須在無知的面紗後面建立工作場所您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

決策,決策……實用應用AI的下一步決策,決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼Apr 29, 2025 am 11:13 AM

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

為什麼同情在AI驅動的未來中比控制者更重要為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

用於產品分類的AI:機器可以總稅法嗎?用於產品分類的AI:機器可以總稅法嗎?Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心的需求會引發氣候技術反彈嗎?數據中心的需求會引發氣候技術反彈嗎?Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

AI和好萊塢的下一個黃金時代AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man?Chatgpt是否會慢慢成為AI最大的Yes-Man?Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境