搜尋
首頁科技週邊人工智慧不會PS沒關係,AI拼圖技巧已經能以假亂真

話說這兩年,「文字生成圖像的擴散模型」著實大火了一把,DALL·E 2和Imagen都是基於此開發出來的應用。

本文經AI新媒體量子位元(公眾號ID:QbitAI)授權轉載,轉載請聯絡來源。

這是一份看似平平無奇的日式便當。

不會PS沒關係,AI拼圖技巧已經能以假亂真

但你敢信,其實每一格食物都是P上去的,而且原圖還是醬嬸兒的:

不會PS沒關係,AI拼圖技巧已經能以假亂真

△直接摳圖貼上去,效果一眼假

背後操作者並不是什麼PS大佬,而是一隻AI,名字很直白:拼圖擴散(Collage Diffusion)。

隨便找幾張小圖拿給它,AI就能自己看懂圖片內容,再把各元素非常自然地拼成一張大圖——完全不存在一眼假。

其效果驚艷了不少網友。

甚至還有PS愛好者直呼:

這簡直是天賜之物…希望很快能在Automatic1111( Stable Diffusion用戶常用的網路UI,也有整合在PS中的插件版)中看到它。

不會PS沒關係,AI拼圖技巧已經能以假亂真

為什麼效果這麼自然?

實際上,此AI生成的「日式便當」還有好幾個生成版本——都很自然有木有。

不會PS沒關係,AI拼圖技巧已經能以假亂真

#至於為啥還有多種版本?問就是因為使用者還能自訂,在整體不變得太離譜的前提下,他們可以微調各種細節。

除了“日式便當”,它還有不少出色的作品。

例如,這是拿給AI的素材,P圖痕跡明顯:

不會PS沒關係,AI拼圖技巧已經能以假亂真

這是AI拼好的圖,反正我愣是沒看出什麼P圖痕跡:

不會PS沒關係,AI拼圖技巧已經能以假亂真

話說這兩年,「文字生成影像的擴散模型」著實大火了一把,DALL·E 2和Imagen都是基於此開發出來的應用。這種擴散模型的優點,是生成圖片多樣化、品質較高。

不過,文字終究對於目標圖像,最多只能起到模糊的規範作用,所以用戶通常要花大量時間調整提示(prompt),還得搭配上額外的控制組件,才可以得到不錯的效果。

就拿前文展示的日式便當來說:

如果用戶只輸入“一個裝有米飯、毛豆、生薑和壽司的便當盒”,那就既沒描述哪種食物放到哪一格,也沒有說明每種食物的外觀。但如果非要講清楚的話,使用者恐怕得寫一篇小作文了…

有鑑於此,史丹佛團隊決定從別的角度出發。

他們決定參考傳統思路,透過拼圖來產生最終影像,並由此開發出了一種新的擴散模型

有趣的是,說白了,這種模型也算是用經典技術「拼」出來的。

首先是分層:使用基於圖層的影像編輯UI,將來源影像分解成一個個RGBA圖層(R、G、B分別代表紅、綠、藍, A代表透明度),然後將這些圖層排列在畫布上,並將每個圖層和文字提示配對。

透過分層,可以修改影像中的各種元素。

到目前為止,分層已經是電腦圖形領域中成熟的技術,不過先前分層資訊一般是作為單張圖片輸出結果使用的。

而在這個新型「拼圖擴散模型」中,分層資訊成了後續操作的輸入。

不會PS沒關係,AI拼圖技巧已經能以假亂真

除了分層,還搭配了現有的基於擴散的影像協調技術,提升影像視覺品質。

總而言之,演算法不僅限制了物件的某些屬性(如視覺特徵)的變化,同時允許屬性(方向、光照、透視、遮蔽)發生改變。

——從而平衡了還原度和自然度之間的關係,產生「神似」且毫無違和感的圖片。

操作過程也很easy,在互動編輯模式下,使用者在幾分鐘內就能創作一幅拼貼畫。

他們不僅可以自訂場景中的空間排列順序(就是把從別處扣出來的圖放到適當的位置);還能調整生成影像的各個元件。用同樣的來源圖,可以得到不同的效果。

不會PS沒關係,AI拼圖技巧已經能以假亂真

△最右邊列是這個AI的輸出結果

而在非互動模式下(即使用者不拼圖,直接把一堆小圖丟給AI),AI也能根據拿到的小圖,自動拼出一張效果自然的大圖。

研究團隊

最後,來說說背後的研究團隊,他們是史丹佛大學電腦科學系的一群師生。

不會PS沒關係,AI拼圖技巧已經能以假亂真

論文一作,Vishnu Sarukkai現為史丹佛電腦科學系研究生,還是碩博連讀的那種。

不會PS沒關係,AI拼圖技巧已經能以假亂真

他的主要研究方向為:電腦圖形學、電腦視覺和機器學習。

此外,論文的共同作者Linden Li,也是史丹佛計算機科學系研究生。

不會PS沒關係,AI拼圖技巧已經能以假亂真

在校求學期間,他曾到英偉達實習4個月,與英偉達深度學習研究小組合作,參與訓練了增加100M 參數的視覺轉換器模型。

論文網址:https://arxiv.org/abs/2303.00262

不會PS沒關係,AI拼圖技巧已經能以假亂真

以上是不會PS沒關係,AI拼圖技巧已經能以假亂真的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!