首頁  >  文章  >  科技週邊  >  大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

PHPz
PHPz轉載
2023-05-30 08:34:05696瀏覽

還記得前幾天發布的DragGAN嗎?

沒錯,就是那個「輕輕點兩下」1秒修圖的工具。

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

拍的照片表情不好?修!臉型不夠瘦?修!臉沖鏡頭的角度不對?修!

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

#搞不好,「讓大象轉個身」這個遠古PS段子,可能就要成真了 

這個AI修圖工具示範影片一經發布,瞬間在國內外火得一塌糊塗。

許多網友紛紛直呼,「PS不存在了」。

還沒幾天,DragGAN非官方實作竟能上手試用了。這項功能已經被整合到InternGPT中,介面長這樣↓

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

##體驗位址:https:/ /igpt.opengvlab.com/

沒想到,示範入口一開放,直接被擠爆。

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

官方示範

從官方放出的示範影片來看,再現的DragGAN效果絕了。

咧嘴笑

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

#先是怎麼把一個沒笑的人p笑。只要選兩個嘴角,直接Drag就好了。

可以看到,最終產生的結果毫無違和感。因為臉部肌肉也在一起變化,不是單純的咧嘴。

合上嘴巴

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

臉編輯

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

##這個瘦臉功能大家就太熟悉了,選取兩個臉蛋往裡面擠,輸出還是很自然的。

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

男性瘦臉。不過這個有點瘦過了,輸出結果一眼假,下巴太尖了。

############這個必須強推!植髮!多少禿頭人士的福音。 ############不過從輸出結果看,就算選中額頭那裡,也是全部地方的毛髮等比例增長,最後的結果有點像美猴王。 ######

轉臉

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

#臉部轉動也是很實用的功能,補齊的部分非常自然。

其它功能

除了小範圍的修圖,InternGPT本身還有很多其它可以進行的亮眼操作。

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

移除遮蓋的物件

#點擊想要在圖片中進行操作的部分,在prompt中輸入「移除」就可以了。

圖片產生

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

#這個功能比較有意思,先上傳一張圖片,輸入prompt讓DragGAN分割,然後再輸入一個prompt產生想要的圖片。

露出黑腳了? (不是)

影片高光解說

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

#用prompt也可以一鍵剪輯影片。

互動式視覺問答

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

#甚至辨識完圖片上的信息還能連網直接查詢。

互動式影像產生

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

#隨手的塗鴉都能一鍵變成美圖。

反正看完這些功能小編是真震驚了。所有功能就突顯兩個特點:「傻瓜式操作,且究極好用」。

這誰能不愛?

技術實作

看了這麼多酷炫的功能,那麼這個InternGPT到底是什麼?

InternGPT(簡稱iGPT)/InternChat(簡稱iChat)是一種基於指向語言驅動的視覺互動系統,使用者可以透過點擊、拖曳和繪製與ChatGPT進行互動。

與依賴純語言的現有互動系統不同,透過整合指向指令,iGPT顯著提高了使用者與聊天機器人之間的溝通效率,以及聊天機器人在視覺為中心任務中的準確性,尤其在複雜的視覺場景中更是如此。

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

論文網址:https://arxiv.org/pdf/2305.05662.pdf

#下圖就是InternGPT的整體架構。

我們可以看到,這個GPT既可以處理圖像、視頻,也可以處理語音、文字。

對於影像或視訊輸入,InternGPT就會用SAM(影像分割模型)、OCR(影像辨識模型)等等來處理。

在辨識出地理位置、物品或線條之後,還有一整個工具箱進行進一步處理,其中都是我們耳熟能詳的工具。

例如BLIP(音訊)、Stable Diffusion(圖像)、Pix2Pix(圖像翻譯)等等。

同樣地,對於文字或語音輸入,InternGPT就會呼叫GPT-4、LLaMA等模型或工具進行處理,後續同樣有一整個工具箱。

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

InternGPT的整體架構

使用提示

而在使用過程中,整個流程也是非常方便的。

用戶在圖片上傳成功後,可以發送以下訊息與iGPT進行多模態相關的對話:

"what is it in the image?" or "what is the background color of image?".

同樣,用戶也可以互動式地操作、編輯或產生圖片,如下:

· 點擊圖片上的任何位置,然後按下Pick 按鈕,預覽分割區域。也可以按下OCR 按鈕,識別具體位置處存在的所有單字;

· 要在圖像中刪除掩碼區域,可以發送以下訊息:##

“remove the masked region”

· 若要在影像中取代遮罩的物體為其他物體,可以傳送下列訊息:

“replace the masked region with {your prompt}”

· 想產生新影像,可以傳送下列訊息:

“generate a new image based on its segmentation describing {your prompt}”

· 想透過塗鴉建立新影像,按下Whiteboard 並在白板上繪製。繪製完成後,需要按下儲存按鈕並發送以下訊息:

“generate a new image based on this scribble describing {your prompt}”
網友評論

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

那個令人震驚的DragGAN現在有一個非官方的版本。正式版本將在6月發布,這只是未來的預覽。

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

DragGAN已經整合到InternGPT了,這麼快就出來了,修圖神器。

大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN

以上是大象P轉身開箱即用!港大、南大、清華等搶先開源「復刻」版DragGAN的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除