朋友,你知道這個英文單字是什麼嗎?
Pneumonoultramicroscopicsilicovolcanoconiosis.
這個世界公認最長-由45個字母組成的單詞,意思是「因肺部沉積火山矽質微粒所引起的疾病」(俗稱火山矽肺病)。
但如果說,現在不是讓你拼讀這個單字,而是…把它給畫出來呢?
(讀都讀不出來,還畫畫???)
Google最新提出來的一個AI-Parti,它就能輕鬆hold住這事。
在把這個字「投餵」給Parti後,它就能有模有樣地生成多張合情合理的肺部疾病圖片:
但這只是Parti小試牛刀的能力,根據Google介紹,它是目前最先進的「文字轉圖像」AI。
例如,跟它說句:“把悉尼歌劇院和巴黎鐵塔做個結合”,輸出結果是這樣的:
(不知道的還真以為是畫報呢)
而且在演算法路數上,還不同於Google自家的Imagen,Parti可以說是把「AI作畫」捲出了新高度。
就連GoogleAI負責人Jeff Dean也連發數條推文,玩得不亦樂乎:
#可擴展到200億參數:更逼真,更「聰明」
#事實上,Parti的能力還不止於此。
得益於模型可擴展到200億參數,一方面,它產生的影像更加細節逼真。
不管是短短幾個字,還是五十多個單字的小段落,都能清晰展現出來。
例如,The back of a violin,小提琴的背面。
也或是照著梵谷《星空》來描述的夜晚畫面。 ps,這段有67個單字。
結果Parti也不在話下,一攬子把各種風格的圖全畫給你了~
Parti主要是將文字產生圖像視為序列到序列之間建模。這有點類似於機器翻譯,將文字標記作為編碼器的輸入,目標輸出從文字變成了圖像。
從結構上看,它的所有元件只有三個部分:編碼器、解碼器以及圖像標記器,而且都是基於標準Transformer。
首先,使用基於Transformer的影像標記器ViT-VQGAN,將影像編碼為離散的標記序列。
接著再透過Transformer的編碼-解碼結構,將參數擴展到200億。
以往關於文本生成圖像的研究,除了最早出現的GAN,大體可以分成兩種思路。
一種是基於自迴歸模型,先文字特徵對應到影像特徵,再使用類似Transformer的序列架構,來學習語言輸入與影像輸出之間的關係。
這種方法的關鍵組成部分是影像標記器,將每個影像轉換為離散單元的序列。例如DALL-E和CogView,就採用了這一思路。
另一種則是這段時間以來進展頻頻的路線-基於擴散的文字到影像模型,例如DALL-E 2和Imagen。
他們摒棄了影像標記器,而是採用擴散模型來直接產生影像。可以看到的是,這些模型產生的影像品質較高,在MS-COCO零樣本FID得分較好。
而Parti模型的成功,證明了自迴歸模型可以用來改善文字產生圖像的效果。
同時,Parti也引進並發布了新的基準測試-PartiPrompts,用於衡量模型在12個類別和11個挑戰方面的能力。
但Parti還是有一定的局限性,研究人員也展示了一些bug:
比如,對否定的描述就沒招了~
一個沒有香蕉的盤子,旁邊一個沒有柳橙汁兒的玻璃杯。
也會犯一些常識性錯誤,例如不合理地縮放。例如這張圖,機器人竟然比賽車高出好幾倍。
一個穿著賽車服和黑色遮陽板的閃亮機器人自豪地站在一輛F1賽車前。太陽落在城市景觀上。漫畫書插圖。
Google「自己捲自己」
在這項研究來自Google Research,團隊中的華人居多。
研究核心工作人員包括Yuanzhong Xu、Thang Luong等,目前均就職於Google從事AI相關研究工作。
(Thang Luong在Google學術上的引用量高達20000 )
△左:Yuanzhong Xu;右:Thang Luong
#不過有趣的是,同為“說句話讓AI作畫”,同為出自谷歌之手的Imagen,它跟Parti還真有點千絲萬縷的關係。
在Parti的GitHub的專案文件中就有提到:
#感謝Imagen團隊,他們在發布Imagen之前與我們分享了其最近完整的結果。
他們在CF-guidance方面的重要發現,對最終的Parti模型特別有幫助。
而且Imagen的作者之一Burcu Karagol Ayan,也參與了Parti的計畫中。
(有種谷歌「自己捲自己」那味了)
#不只如此,就連「隔壁」DALL-E 2的作者Aditya Ramesh,也給Parti在MS-COCO評價方面做了討論工作。
以及DALL-Eval的作者們,也在Parti資料方面的工作提供了幫助。
One More Thing
有說一,就「文字產生圖像」這事,可不只是研究人員們的寵兒。
網友們在「玩」它這條路上,也是樂此不疲(腦洞不要太大好吧)。
前一陣子讓Imagen畫一幅宋朝“虎戴VR”,直接演變成AI作畫大戰。
△圖:Imagen作畫
DALL·E、MidJourney等「聞訊趕來」參與其中。
△ DALL·E作畫
#甚至還有把Wordle和DALL-E 2搞到一起的:
#…
不過回歸到這次的Parti,好玩歸好玩,但還是有網友提出了「直擊靈魂」的問題:
啥時候商業化?要是自己「關門玩」就沒意思了。
Parti論文網址:
https://parti.research.google/
GitHub專案網址:
https://github.com/google-research/parti
#參考連結:
##[1]https:/ /twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289[3]https://imagen.research .google/以上是谷歌新AI火了!世界最長單字都能畫的詳細內容。更多資訊請關注PHP中文網其他相關文章!
![無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Dreamweaver Mac版
視覺化網頁開發工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具