4 月初,Meta 發布了史上首個圖像分割基礎模型--SAM(Segment Anything Model)[1]。作為分割模型,SAM 的能力強大,操作使用方式也十分友好,例如使用者簡單地點擊來選擇對應物體,物體就會立即被分割出來,且分割結果十分精準。截至 4 月 15 號,SAM 的 GitHub 倉庫的 Star 數高達 26k。
如何利用如此強大的「分割一切」模型,並拓展到更有實際需求的應用情境至關重要。例如,當 SAM 遇到實用的影像修補(Image Inpainting)任務會碰撞出什麼樣的火花呢?
來自中國科學技術大學和東方理工高等研究院的研究團隊給出了令人驚豔的答案。基於 SAM,他們提出「修補一切」(Inpaint Anything,簡稱 IA)模型。有別於傳統圖像修補模型,IA 模型無需精細化操作生成掩碼,支援了一鍵點擊標記選定對象,IA 即可實現移除一切物體(Remove Anything)、填補一切內容( Fill Anything)、替換一切場景(Replace Anything),涵蓋了包括目標移除、目標填充、背景替換等在內的多種典型圖像修補應用場景。
- #論文連結:http://arxiv.org/abs/2304.06790
- 程式碼庫連結:https://github.com/geekyutao/Inpaint-Anything
儘管目前影像修補系統取得了重大進展,但它們在選擇遮罩圖和填補空洞方面仍然面臨困難。基於SAM,研究者首次嘗試無需掩碼(Mask-Free)圖像修復,並建構了「點擊再填充」(Clicking and Filling) 的圖像修補新範式,他們稱之為修補一切(Inpaint Anything)(IA)。 IA 背後的核心思想是結合不同模型的優勢,以建立一個強大且用戶友好的圖像修復系統。
IA 有三個主要功能:(i) 移除一切(Remove Anything):使用者只需點擊一下想要移除的物體,IA 將無痕地移除該物體,實現高效「魔法消除」;(ii) 填補一切(Fill Anything):同時,用戶還可以進一步透過文字提示(Text Prompt)告訴IA 想要在物體內填充什麼,IA 隨即透過驅動已嵌入的AIGC (AI-Generated Content)模型(如Stable Diffusion [2])產生對應的內容填充物體,實現隨心所欲「內容創作」;(iii) 替換一切(Replace Anything):使用者也可以透過點擊選擇需要保留的物體對象,並用文字提示告訴IA 想要把物體的背景替換成什麼,即可將物體背景替換為指定內容,實現生動「環境轉換」。 IA 的整體架構如下圖所示:
#Inpaint Anything(IA)示意圖。使用者可以透過點擊來選擇圖像中的任何物體。借助強大的視覺模型,如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3],IA 能夠平滑移除選定物體(即 Remove Anything)。進一步地,透過向 IA 輸入文字提示,使用者可以用任何想要的內容填充物體(即 Fill Anything)或任意替換物件的物體(即 Replace Anything)。
移除一切#
移除一切(Remove Anything)示意圖
「移除一切」步驟如下:
- 第1 步:使用者點選想要移除的物件;
- 第2 步驟:SAM將該物件分割出來;
- 第3 步:影像修補模型(LaMa)填補該物件。
填補一切
填補一切(Fill Anything)示意圖,圖中使用的文字提示:a teddy bear on a bench
「填補一切」步驟如下:
- 第1 步:使用者點選想要移除的物件;
- ##第2 步:SAM 將該物體分割出來;
- 第3 步:使用者透過文字示意想要填滿的內容; ##第4 步:基於文字提示的圖像修補模型(Stable Diffusion)根據使用者提供的文字對物件進行填充。
#取代一切(Replace Anything)示意圖,圖中使用的文字提示: a man in office
「填滿一切」步驟如下:
- 第1 步:使用者點擊想要移除的物件;
- 第2 步:SAM 將該物件分割出來;
- ##第3 步:使用者透過文字示意想要替換的背景;
- 第4 步:基於文字提示的圖像修補模型(Stable Diffusion)根據使用者提供的文字對物件的背景進行替換。
- 模型結果
研究者隨後在COCO 資料集[4]、LaMa 測試資料集[3] 和他們自己用手機拍攝的2K 高清圖像上對Inpaint Anything 進行測試。值得注意的是,
研究者的模型也支援2K 高清圖和任意長寬比,這使得IA 系統在各種整合環境和現有框架中都能夠實現高效的遷移應用 。
移除所有實驗結果
##填寫一切實驗結果
#文字提示:a camera lens in the hand
文字提示:an aircraft carrier on the sea
文字提示:a sports car on a road
##文字提示:a Picasso painting on the wall
#取代一切實驗結果
##文字提示:sit on the swing
##文字提示:breakfast
#文字提示:a bus, on the center of a country road , summer
#文字提示:crossroad in the city
########總結# ########研究者建立這樣一個有趣的項目,來展示充分利用現有大型人工智慧模型所能獲得的強大能力,並揭示「可組合人工智慧」(Composable AI)的無限潛力。專案所提出的 Inpaint Anything (IA) 是一種多功能的圖像修補系統,融合了物體移除、內容填補、場景替換等功能(更多的功能正在路上敬請期待)。 ############IA 結合了SAM、影像修補模型(例如LaMa)和AIGC 模型(例如Stable Diffusion)等視覺基礎模型,實現了對使用者操作友好的無掩碼化影像修復,同時支援「點擊刪除,提示填滿」的等「傻瓜式」人性化操作。此外,IA 還可以處理具有任意長寬比和 2K 高清解析度的影像,且不受影像原始內容限制。 ############目前,######專案已經完全開源######。最後,歡迎大家分享並推廣 Inpaint Anything (IA) ,也期待看見更多基於 IA 所拓展的新項目。未來,研究者將進一步挖掘 Inpaint Anything (IA) 的潛力 以支援更多實用的新功能,如細粒度圖像摳圖、編輯等,並將其應用到更多現實應用中。 ######以上是當「分割一切」遇上影像修補:無需精細標記,點選物件實現物件移除、內容填補、場景替換的詳細內容。更多資訊請關注PHP中文網其他相關文章!

數據完整性:刪除Excel中的重複項以進行準確分析 乾淨的數據對於有效的決策至關重要。 Excel電子表格中的重複條目可能會導致錯誤和不可靠的分析。本指南向您展示瞭如何輕鬆刪除DUP

掌握電話採訪的藝術:成功指南 成功的電話面試可以大大增加進入工作申請過程下一階段的機會。 這種至關重要的第一印象,通常是唯一的前fac

介紹 想像一下,有能力在醫療保健,金融或體育等領域為自己和您的公司做出明智的決定。那就是統計學家的角色。 隨著組織中數據的越來越多,對統計學家的需求

人工智能:綜合指南 技術使我們能夠設想一個世界,即機器了解我們的偏好,預測我們的需求,並從過去的互動中學習以提供更好的結果。這不是科幻小說;它是

介紹 在數據分析的世界中,有效的溝通是關鍵。 象形圖提供了一個強大的解決方案,以視覺上吸引人且易於消化的格式提供信息。與復雜的圖表和數字不同,象形文字 - 也

Llama 3.1風暴8b:有效語言模型的突破 追求高效,準確的語言模型導致了Llama 3.1 Storm 8b的發展,這是80億個參數模型類別的顯著進步。 這是完善的

git:您的版本控制與協作的基本指南 Git是開發人員的關鍵工具,簡化了項目協作和版本控制。 本指南提供了在Linux,MacOS和Wind上安裝GIT的直接說明

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver CS6
視覺化網頁開發工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Linux新版
SublimeText3 Linux最新版

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

WebStorm Mac版
好用的JavaScript開發工具