搜尋
首頁科技週邊人工智慧教ChatGPT學會看圖的方法來了

2022年流行「文生圖」模型,那2023年流行什麼?

機器學習工程師Daniel Bourke的答案是:反過來!

這不,一個最新發布的「圖生文」模型在網路上爆火,其優秀的效果引發眾多網友紛紛轉發、點讚。

教ChatGPT學會看圖的方法來了

不僅是基礎的「看圖說話」功能,寫情詩、講解劇情、給圖片中物件設計對話等等,這個AI都拿捏得穩穩的!

例如,當你在網路上刷到誘人的美食時,只需把圖片發給它,它就會立刻識別出需要的食材和做菜步驟:

教ChatGPT學會看圖的方法來了

#甚至圖片中的一些列文虎克的細節也能「看」得清清楚楚。

當被問到如何從圖片中倒著的房子裡離開,AI的回答是:側面不是有滑梯嘛!

教ChatGPT學會看圖的方法來了

這只新AI名為BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前程式碼已開源。

最重要的是,和先前的研究不同,BLIP-2使用的是一種通用的預訓練框架,因此可以任意對接自己的語言模型。

有網友已經在暢想把介面換成ChatGPT後的強強組合了。

教ChatGPT學會看圖的方法來了

作者之一Steven Hoi更是放話:BLIP-2未來就是「多模態版ChatGPT」。

教ChatGPT學會看圖的方法來了

那麼,BLIP-2神奇的地方還有哪些?一起往下看。

理解能力一流

BLIP-2的玩法可以說非常多樣化了。

只需提供一張圖片,你就可以與它對話,讓它看圖講故事、推理、生成個人化文本等各種要求都能滿足。

舉個例子,BLIP-2不僅能輕易辨識圖片中的景點是長城,還能介紹出長城的歷史:

中國的長城是西元前221年秦始皇為了保護帝都不受北方侵略而建造的。

教ChatGPT學會看圖的方法來了

給它一張電影劇照,BLIP-2不光知道出自哪,還知道故事的結局是be:泰坦尼克號沉沒,男主淹死。

教ChatGPT學會看圖的方法來了

在對人類神態的拿捏上,BLIP-2同樣掌握得非常準確。

被問到這張圖片中的男人是什麼表情,他為什麼這樣時,BLIP-2的回答是:他害怕那隻雞,因為它正朝他飛來。

教ChatGPT學會看圖的方法來了

更神奇的是,在許多開放性問題上,BLIP-2的表現也很出色。

讓它根據下面的圖片寫一句浪漫的話:

教ChatGPT學會看圖的方法來了

#它的回答是這樣的:愛就像日落,很難預見它的到來,但當它發生時,它是如此的美麗。

教ChatGPT學會看圖的方法來了

這不光理解能力滿分,文學造詣也相當強啊!

教ChatGPT學會看圖的方法來了

讓它給圖片中的兩隻動物生成一段對話,BLIP-2也能輕鬆拿捏傲嬌貓貓x萌蠢狗狗的設定:

貓: 嘿,狗狗,我可以騎在你背上嗎?

狗: 當然,為什麼不呢?

貓: 我已經厭倦了在雪地裡行走。

教ChatGPT學會看圖的方法來了

那麼,如此強大的理解能力背後,BLIP-2究竟是怎麼做到的?

多項視覺語言任務上實現新SOTA

考慮到大規模模型的端到端訓練成本越來越高,BLIP-2使用的是一種通用且高效的預訓練策略:

從現成的凍結預訓練影像編碼器和凍結的大型語言模型中引導視覺語言預訓練。

這也意味著,每個人都可以選擇自己想使用的模型存取使用。

而為了彌補了模態之間的差距,研究者提出了一個輕量級的查詢Transformer。

此Transformer分兩個階段進行預先訓練:

第一階段從凍結影像編碼器引導視覺語言表示學習,第二階段將視覺從凍結的語言模型引導到語言生成學習。

教ChatGPT學會看圖的方法來了

為了測試BLIP-2的效能,研究者分別從零樣本圖像-文字產生、視覺問答、圖像-文字檢索、圖像字幕任務上對其進行了評估。

最終結果顯示,BLIP-2在多項視覺語言任務上都實現了SOTA。

教ChatGPT學會看圖的方法來了

其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且訓練參數也減少了54倍。

而且顯而易見的是,更強的圖像編碼器或更強的語言模型都會產生更好的效能。

教ChatGPT學會看圖的方法來了

值得一提的是,研究者在論文最後也提到,BLIP-2還有一個不足,那就是缺乏上下文學習能力:

每個樣本只包含一個圖像-文字對,目前還無法學習單一序列中多個圖像-文字對之間的相關性。

研究團隊

BLIP-2的研究團隊來自Salesforce Research。

教ChatGPT學會看圖的方法來了

第一作者為Junnan Li,他也是一年前推出的BLIP的一作。

目前是Salesforce亞洲研究院資深研究科學家。本科畢業於香港大學,博士畢業於新加坡國立大學。

研究領域很廣泛,包括自我監督學習、半監督學習、弱監督學習、視覺-語言。

以下是BLIP-2的論文連結和GitHub鏈接,有興趣的夥伴們可以自取~

論文連結:https://arxiv.org/pdf/2301.12597. pdf

GitHub連結:https://github.com/salesforce/LAVIS/tree/main/projects/blip2

參考連結:[1]https://twitter.com/mrdbourke /status/1620353263651688448

[2]https://twitter.com/LiJunnan0409/status/1620259379223343107

以上是教ChatGPT學會看圖的方法來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能