介紹
文本到圖像的綜合和圖像文本對比學習是最近越來越受歡迎的兩個最具創新性的多模式學習應用程序。這些模型憑藉其創新的創造圖像創建和操縱應用,徹底改變了研究社區,並引起了廣泛的公共利益。
為了進一步研究,DeepMind引入了成像劑。這種文本對圖像擴散模型通過將變壓器語言模型(LMS)的強度與高前景擴散模型融合在一起,提供了前所未有的光真相和對文本形象綜合中語言的深刻理解。
本文介紹了Google最新成像模型的訓練和評估,Imagen 3。默認情況下,可以將Imagen 3配置為以1024×1024分辨率的輸出圖像,並可以選擇2×,4×或8×UPSMPLING。與其他尖端T2I模型相比,我們概述了分析和評估。
我們發現Imagen 3是最好的模型。它擅長於攝影和遵循複雜且冗長的用戶說明。
概述
- 革命性的文本對圖像模型:Google的Imagen 3,一種文本對圖擴散模型,在解釋詳細的用戶提示時提供了無與倫比的光真相和精度。
- 評估和比較:Imagen 3在及時圖像比對和視覺吸引力中表現出色,超過了諸如DALL·e 3之類的模型,並且在自動化和人類評估中均具有穩定的擴散。
- 數據集和安全措施:訓練數據集經歷嚴格的過濾以刪除低質量或有害內容,從而確保更安全,更準確的輸出。
- 建築輝煌:使用冷凍的T5-XXL編碼器和多步上採樣,Imagen 3生成高達1024×1024分辨率的高度詳細圖像。
- 現實世界集成:Imagen 3可以通過Google Cloud的頂點AI訪問,從而易於集成到生產環境中以創造圖像生成。
- 高級功能和速度:隨著Imagen 3的引入快速,用戶可以從延遲的40%降低而不會損害圖像質量中受益。
目錄
- 數據集:確保培訓的質量和安全性
- 成像架構
- 成像模型的評估
- 人類評估:評估者如何評判Imagen 3的產出質量?
- 總體用戶偏好:Imagen 3領先創意圖像生成
- 及時圖像對齊:用精度捕獲用戶意圖
- 視覺吸引力:跨平台的美學卓越
- 詳細的及時圖像對齊
- 數值推理:超過對象計數準確性的競爭
- 自動化評估:將模型與夾子,壁虎和VQASCORE進行比較
- 及時 - 圖像對齊
- 圖像質量
- 定性結果:突出顯示Imagen 3對細節的關注
- 評估推斷
- 通過頂點AI訪問Imagen 3:無縫集成指南
- 使用頂點AI
- 使用雙子座
- 常見問題
數據集:確保培訓的質量和安全性
使用包括文本,圖像和相關註釋的大型數據集對成像模型進行訓練。 DeepMind使用了幾個過濾階段來保證質量和安全要求。首先,除去被認為是危險,暴力或質量差的任何圖像都將消除。接下來,DeepMind刪除了AI為阻止模型拾取這些圖像中經常存在的偏見或偽像的圖像。 DeepMind還採用了加權類似的圖像和重複數據刪除程序,以減少輸出過度擬合某些培訓數據點的可能性。
數據集中的每個圖像都有一個合成字幕和一個來自Alt文本,人類描述等的原始字幕。 Gemini模型產生具有不同提示的合成字幕。為了最大程度地提高這些綜合標題的語言多樣性和質量,DeepMind使用了多種雙子座模型和說明。 DeepMind使用各種過濾器來消除潛在的有害標題和個人身份信息。
成像架構
Imagen使用大型冷凍T5-XXL編碼器將輸入文本編碼為嵌入。條件擴散模型將嵌入到64×64圖像中的文本映射。成像人進一步利用文本條件的超分辨率擴散模型來對圖像64×64→256×256和256×256→1024×1024進行示例。
成像模型的評估
DeepMind評估了Imagen 3模型,這是最佳質量配置,對Imagen 2和外部模型DALL·E 3,Midjourney V6,穩定的擴散3大,穩定的擴散XL 1.0。 DeepMind發現,Imagen 3通過人類和機器的嚴格評估在文本到圖像生成中設定了新的最新技術。定性結果和評估推斷包含定性結果以及對整體發現和局限性的討論。與成像3的產品集成可能會導致性能與已測試的配置不同。
另請閱讀:如何使用DALL-E 3 API進行圖像生成?
人類評估:評估者如何評判Imagen 3的產出質量?
對文本形像生成模型進行了評估,以五個質量方面進行評估:總體偏好,及時圖像對齊,視覺吸引力,詳細的及時圖像對齊和數值推理。對這些方面進行獨立評估,以避免評估者的判斷中混合。並排比較用於定量判斷,而數值推理可以通過計算圖像中描述的給定類型的多少個對象來直接評估數值推理。
完整的ELO記分板是通過對每對型號進行詳盡的比較而生成的。每項研究包括在提示集中的提示中均勻分佈的2500個評級。這些模型在評估者界面中被匿名化,並且側面對每個評分都隨機調整。數據收集是使用Google DeepMind在數據豐富方面的最佳實踐進行的,以確保所有數據豐富工人至少獲得當地生活工資的支付。該研究在3225個不同評估者的5943次提交中收集了366,569個評級。每個評估者最多參與了10%的研究,並提供了大約2%的評級,以避免對一組評估者的判斷的有偏見。來自71個不同國籍的評估者參加了研究。
總體用戶偏好:Imagen 3領先創意圖像生成
用戶對給定提示的生成圖像的總體偏好是一個空曠的問題,評估者決定哪些質量方面最重要。將兩張圖像提交給評估者,如果兩者都同樣吸引人,“我無動於衷”。
結果表明,在Genai Bench,Drawbench和Dall·E 3評估中,Imagen 3明顯更受歡迎。 Imagen 3在拉動台上的邊緣比穩定的擴散3較小,並且在dall·e 3評估上的邊緣略有邊緣。
及時圖像對齊:用精度捕獲用戶意圖
該研究評估了輸入圖像內容中輸入提示的表示,忽略了潛在的缺陷或審美吸引力。要求評估者選擇一個更好地捕獲提示意圖的圖像,而無視不同樣式的圖像。結果表明,Imagen 3優於Genai Bench,Drawbench和Dall·E 3 Eval,並具有重疊的置信區間。該研究表明,忽略圖像中的潛在缺陷或不良質量可以提高及時圖像對齊的準確性。
視覺吸引力:跨平台的美學卓越
視覺吸引力衡量產生的圖像的吸引力,無論內容如何。評估者沒有提示並排評價兩個圖像。 Midjourney V6的帶領下,Imagen 3幾乎在Genai Bench上,在Drawbench上略大,並且在DALL·E 3評估方面具有顯著優勢。
詳細的及時圖像對齊
該研究通過從DOCCI的詳細提示中生成圖像來評估及時圖像的功能,該圖像要比以前的提示集更長。研究人員發現閱讀100個單詞提示人類評估者太具有挑戰性了。取而代之的是,他們使用真實參考照片的高質量標題將生成的圖像與基準參考圖像進行比較。評估者專注於圖像的語義,忽略樣式,捕獲技術和質量。結果表明,Imagen 3的顯著差距為114個ELO點,而第二好的模型的勝率為63%,突出了其出色的功能,遵循輸入提示的詳細內容。
數值推理:超過對象計數準確性的競爭
該研究評估了模型使用Geckonum基準任務生成確切數量的對象的能力。該任務涉及將圖像中的對像數與提示中請求的預期數量進行比較。這些模型考慮了諸如顏色和空間關係之類的屬性。結果表明,成像3是最強的模型,表現優於dall·e 3乘12個百分點。在生成包含2-5個對象的圖像和更複雜的句子結構上的性能更好時,它也具有更高的精度。
自動化評估:將模型與夾子,壁虎和VQASCORE進行比較
近年來,諸如剪輯和VQASCORE之類的自動評估(自動評估)指標已被更廣泛地用於衡量文本模型的質量。這項研究重點介紹了自動化指標,以及時圖像對準和圖像質量,以補充人類評估。
及時 - 圖像對齊
研究人員選擇了三個強大的自動效應及時圖像指標:對比度雙編碼器(剪輯),基於VQA的對比度(gecko)和一個基於LVLM提示(VQASCORE2的實現)。結果表明,剪輯通常無法預測正確的模型排序,而壁虎和VQASCORE表現良好,大約有72%的時間達成共識。 VQASCORE具有優勢,因為它與人類評分相匹配,而Gecko的73.3%則有80%的時間。壁虎使用較弱的骨幹,帕利,這可能解釋了性能的差異。
該研究評估了四個數據集,以調查不同條件下的模型差異:壁虎,docci檢測 - 居民,dall·e 3評估和Genai-Bench。結果表明,成像3始終具有最高的對齊性能。 SDXL 1和Imagen 2的性能始終比其他模型少。
圖像質量
關於圖像質量,研究人員比較了使用不同的特徵空間和距離指標,比較了Imagen 3,SDXL 1和DALL·E 3的生成圖像的分佈。他們觀察到,將這三個指標最小化是一個權衡,有利於自然色和紋理的產生,但無法檢測到對象形狀和零件上的畸變。 Imagen 3介紹了三種型號的CMMD值較低,突出了其在最先進的特徵空間指標上的強勁性能。
定性結果:突出顯示Imagen 3對細節的關注
下圖顯示了2個圖像上採樣到12百萬像素,農作物顯示了細節水平。
評估推斷
Imagen 3是及時圖像對齊的頂級模型,尤其是在詳細的提示和計數能力中。在視覺吸引力方面,Midjourney V6領先,Imagen 3排名第二。但是,它仍然存在某些功能的缺點,例如數值推理,規模推理,組成短語,動作,空間推理和復雜的語言。這些模型在需要數值推理,規模推理,組成短語和行動的任務上掙扎。總體而言,Imagen 3是尊重用戶意圖的高質量輸出的最佳選擇。
通過頂點AI訪問Imagen 3:無縫集成指南
使用頂點AI
要開始使用頂點AI,您必須擁有現有的Google Cloud項目並啟用頂點AI API。了解有關建立項目和開發環境的更多信息。
另外,這是GitHub鏈接 - 請參閱
導入Vertexai 來自vertexai.preview.vision_models導入imageGenerationModel #todo(開發人員):從頂點AI控制台更新您的項目ID project_id =“ project_id” vertexai.init(project = project_id,location =“ us-central1”) generation_model = imageGenerationModel.from_pretrataining(“ Imagen-3.0生成-001”) 提示=“” 一本木製廚房桌子上的食譜的影像圖像,封面面向前方的封面,有一個微笑的家庭坐在類似的桌子上,柔軟的高架照明照亮了場景,食譜是圖像的主要重點。 ”“” image = generation_model.generate_images( 提示=提示, number_of_images = 1, expack_ratio =“ 1:1”, safety_filter_level =“ block_some”, person_generation =“ ally_all”, )
文本渲染
Imagen 3還為文本渲染圖像開闢了新的可能性。創建帶有不同字體和顏色字幕的海報,卡片和社交媒體帖子的圖像是嘗試此工具的好方法。要使用此功能,只需簡要描述您想在提示中看到的內容即可。想像一下,您想更改食譜的封面並添加標題。
提示=“” 一本木製廚房桌子上的食譜的影像圖像,封面面向前方的封面,有一個微笑的家庭坐在類似的桌子上,柔軟的高架照明照亮了場景,食譜是圖像的主要重點。 在橙色塊字母的“日常食譜”中添加一個書名。 ”“” image = generation_model.generate_images( 提示=提示, number_of_images = 1, expack_ratio =“ 1:1”, safety_filter_level =“ block_some”, person_generation =“ ally_all”, )
延遲減少
除Imagen 3(迄今為止其最高質量的模型)外,DeepMind提供了Imagen 3 Fast,這是一種針對發電速度優化的模型。 Imagen 3 FAST適用於產生具有更大對比度和亮度的圖像。與Imagen 2相比,您可以觀察到延遲的降低40%。您可以使用相同的提示來創建兩個圖像來說明這兩個模型。讓我們為沙拉照片創建兩個替代方法,我們可以在上面提到的食譜中包括。
generation_model_fast = imageGenerationModel.from_pretrate( “ Imagen-3.0-fast-generate-001” ) 提示=“” 花園沙拉的影像圖像,上面有五顏六色的蔬菜,例如辣椒,黃瓜,西紅柿和綠葉蔬菜,坐在白色大理石桌上的圖像中心的木碗中。自然光照亮了場景,鑄造柔和的陰影並突出了成分的新鮮度。 ”“” #成像3快速圖像生成 fast_image = generation_model_fast.generate_images( 提示=提示, number_of_images = 1, expack_ratio =“ 1:1”, safety_filter_level =“ block_some”, person_generation =“ ally_all”, )
提示=“” 花園沙拉的影像圖像,上面有五顏六色的蔬菜,例如辣椒,黃瓜,西紅柿和綠葉蔬菜,坐在白色大理石桌上的圖像中心的木碗中。自然光照亮了場景,鑄造柔和的陰影並突出了成分的新鮮度。 ”“” #成像3圖像生成 image = generation_model.generate_images( 提示=提示, number_of_images = 1, expack_ratio =“ 1:1”, safety_filter_level =“ block_some”, person_generation =“ ally_all”, )
使用雙子座
Gemini支持使用新Imagen 3的支持,因此我們使用Gemini訪問Imagen 3。在下圖中,我們可以看到Gemini使用Imagen 3生成圖像。
提示 - “在城市道路上產生獅子行走的形象。道路上有汽車,自行車和公共汽車。一定要使它現實”
結論
Google的Imagen 3設定了一個新的基準,用於文本對圖像綜合,在光真相中表現出色,並以極好的精度處理複雜提示。它在多個評估基準中的強勁表現突出了其在詳細的及時圖像對齊和視覺吸引力中的功能,超過了諸如DALL·E 3和穩定擴散之類的模型。但是,它在涉及數值和空間推理的任務中仍然面臨挑戰。通過添加Imagen 3的添加,以減少延遲和與頂點AI等工具的集成,Imagen 3為創造性應用開闢了令人興奮的可能性,從而突破了多模式AI的界限。
如果您正在在線尋找生成的AI課程,請探索 -今天的Genai Pinnacle計劃!
常見問題
Q1。是什麼使Google的Imagen 3在文本到圖像合成中脫穎而出?ANS Imagen 3在光真相和復雜的及時處理方面表現出色,與其他型號(如DALL·E 3和穩定的擴散)相比,與用戶輸入相比,提供了出色的圖像質量和與用戶輸入的對齊。
Q2。 Imagen 3如何處理複雜提示?Ans。 Imagen 3旨在有效地管理詳細且冗長的提示,以表明及時圖像對齊和詳細的內容表示方面的良好性能。
Q3。哪些數據集用於訓練Imagen 3?Ans。該模型在一個具有文本,圖像和註釋的大型,多樣化的數據集上進行了培訓,以排除AI生成的內容,有害圖像和質量差數據。
Q4。 Imagen 3與標準版本有何不同?Ans。 Imagen 3快速對速度進行了優化,與標準版本相比,在保持高質量的圖像生成的同時,延遲降低了40%。
Q5。 Imagen 3可以集成到生產環境中嗎?Ans。是的,Imagen 3可以與Google Cloud的頂點AI一起使用,從而可以無縫集成到圖像生成和創意任務的應用中。
以上是Google的Imagen 3是AI圖像創建的未來嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

AI簡化了野火恢復允許 澳大利亞科技公司Archistar的AI軟件,利用機器學習和計算機視覺,可以自動評估建築計劃以符合當地法規。這種驗證前具有重要意義

愛沙尼亞的數字政府:美國的典範? 美國在官僚主義的效率低下方面掙扎,但愛沙尼亞提供了令人信服的選擇。 這個小國擁有由AI支持的近100%數字化的,以公民為中心的政府。 這不是

計劃婚禮是一項艱鉅的任務,即使是最有條理的夫婦,也常常壓倒了婚禮。 本文是關於AI影響的持續福布斯系列的一部分(請參閱此處的鏈接),探討了生成AI如何徹底改變婚禮計劃。 婚禮上

企業越來越多地利用AI代理商進行銷售,而政府則將其用於各種既定任務。 但是,消費者倡導強調個人需要擁有自己的AI代理人作為對經常定位的辯護的必要性

Google正在領導這一轉變。它的“ AI概述”功能已經為10億用戶提供服務,在任何人單擊鏈接之前提供完整的答案。 [^2] 其他球員也正在迅速獲得地面。 Chatgpt,Microsoft Copilot和PE

2022年,他創立了社會工程防禦初創公司Doppel,以此做到這一點。隨著網絡犯罪分子越來越高級的AI模型來渦輪增壓,Doppel的AI系統幫助企業對其進行了大規模的對抗 - 更快,更快,

瞧,通過與合適的世界模型進行交互,可以實質上提高生成的AI和LLM。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括

勞動節2050年。全國范圍內的公園充滿了享受傳統燒烤的家庭,而懷舊遊行則穿過城市街道。然而,慶祝活動現在具有像博物館般的品質 - 歷史重演而不是紀念C


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

記事本++7.3.1
好用且免費的程式碼編輯器

Dreamweaver Mac版
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!