當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 30, 2023 pm 02:49 PM

影像模型

4 月初，Meta 發布了史上首個圖像分割基礎模型--SAM（Segment Anything Model）[1]。作為分割模型，SAM 的能力強大，操作使用方式也十分友好，例如使用者簡單地點擊來選擇對應物體，物體就會立即被分割出來，且分割結果十分精準。截至 4 月 15 號，SAM 的 GitHub 倉庫的 Star 數高達 26k。

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

如何利用如此強大的「分割一切」模型，並拓展到更有實際需求的應用情境至關重要。例如，當 SAM 遇到實用的影像修補（Image Inpainting）任務會碰撞出什麼樣的火花呢？

來自中國科學技術大學和東方理工高等研究院的研究團隊給出了令人驚豔的答案。基於 SAM，他們提出「修補一切」（Inpaint Anything，簡稱 IA）模型。有別於傳統圖像修補模型，IA 模型無需精細化操作生成掩碼，支援了一鍵點擊標記選定對象，IA 即可實現移除一切物體（Remove Anything）、填補一切內容（ Fill Anything）、替換一切場景（Replace Anything），涵蓋了包括目標移除、目標填充、背景替換等在內的多種典型圖像修補應用場景。

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

#論文連結：http://arxiv.org/abs/2304.06790
程式碼庫連結：https://github.com/geekyutao/Inpaint-Anything

##方法介紹

儘管目前影像修補系統取得了重大進展，但它們在選擇遮罩圖和填補空洞方面仍然面臨困難。基於SAM，研究者首次嘗試無需掩碼（Mask-Free）圖像修復，並建構了「點擊再填充」（Clicking and Filling）的圖像修補新範式，他們稱之為修補一切（Inpaint Anything）（IA）。 IA 背後的核心思想是結合不同模型的優勢，以建立一個強大且用戶友好的圖像修復系統。

IA 有三個主要功能：(i) 移除一切（Remove Anything）：使用者只需點擊一下想要移除的物體，IA 將無痕地移除該物體，實現高效「魔法消除」；(ii) 填補一切（Fill Anything）：同時，用戶還可以進一步透過文字提示（Text Prompt）告訴IA 想要在物體內填充什麼，IA 隨即透過驅動已嵌入的AIGC （AI-Generated Content）模型（如Stable Diffusion [2]）產生對應的內容填充物體，實現隨心所欲「內容創作」；(iii) 替換一切（Replace Anything）：使用者也可以透過點擊選擇需要保留的物體對象，並用文字提示告訴IA 想要把物體的背景替換成什麼，即可將物體背景替換為指定內容，實現生動「環境轉換」。 IA 的整體架構如下圖所示：

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

#Inpaint Anything（IA）示意圖。使用者可以透過點擊來選擇圖像中的任何物體。借助強大的視覺模型，如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3]，IA 能夠平滑移除選定物體（即 Remove Anything）。進一步地，透過向 IA 輸入文字提示，使用者可以用任何想要的內容填充物體（即 Fill Anything）或任意替換物件的物體（即 Replace Anything）。

移除一切#

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

移除一切（Remove Anything）示意圖

「移除一切」步驟如下：

第1 步：使用者點選想要移除的物件；
第2 步驟：SAM將該物件分割出來；
第3 步：影像修補模型（LaMa）填補該物件。

填補一切

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

填補一切（Fill Anything）示意圖，圖中使用的文字提示：a teddy bear on a bench

「填補一切」步驟如下：

第1 步：使用者點選想要移除的物件；
##第2 步：SAM 將該物體分割出來；
第3 步：使用者透過文字示意想要填滿的內容；

取代一切

#取代一切（Replace Anything）示意圖，圖中使用的文字提示： a man in office

「填滿一切」步驟如下：

##第3 步：使用者透過文字示意想要替換的背景；
第4 步：基於文字提示的圖像修補模型（Stable Diffusion）根據使用者提供的文字對物件的背景進行替換。
模型結果

研究者隨後在COCO 資料集[4]、LaMa 測試資料集[3] 和他們自己用手機拍攝的2K 高清圖像上對Inpaint Anything 進行測試。值得注意的是，

研究者的模型也支援2K 高清圖和任意長寬比，這使得IA 系統在各種整合環境和現有框架中都能夠實現高效的遷移應用。

移除所有實驗結果

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

##填寫一切實驗結果

#文字提示：a camera lens in the hand

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

文字提示：an aircraft carrier on the sea

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

文字提示：a sports car on a road

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

##文字提示：a Picasso painting on the wall

#取代一切實驗結果

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

##文字提示：sit on the swing

當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換

##文字提示：breakfast

#文字提示：a bus, on the center of a country road , summer

#文字提示：crossroad in the city

########總結# ########研究者建立這樣一個有趣的項目，來展示充分利用現有大型人工智慧模型所能獲得的強大能力，並揭示「可組合人工智慧」（Composable AI）的無限潛力。專案所提出的 Inpaint Anything (IA) 是一種多功能的圖像修補系統，融合了物體移除、內容填補、場景替換等功能（更多的功能正在路上敬請期待）。 ############IA 結合了SAM、影像修補模型（例如LaMa）和AIGC 模型（例如Stable Diffusion）等視覺基礎模型，實現了對使用者操作友好的無掩碼化影像修復，同時支援「點擊刪除，提示填滿」的等「傻瓜式」人性化操作。此外，IA 還可以處理具有任意長寬比和 2K 高清解析度的影像，且不受影像原始內容限制。 ############目前，######專案已經完全開源######。最後，歡迎大家分享並推廣 Inpaint Anything (IA) ，也期待看見更多基於 IA 所拓展的新項目。未來，研究者將進一步挖掘 Inpaint Anything (IA) 的潛力以支援更多實用的新功能，如細粒度圖像摳圖、編輯等，並將其應用到更多現實應用中。 ######

以上是當「分割一切」遇上影像修補：無需精細標記，點選物件實現物件移除、內容填補、場景替換的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除