搜尋
首頁科技週邊人工智慧'MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等'

對人類來說,理解一張圖的訊息,不過是一件微不足道的小事,人類幾乎不用思考,就能隨口說出圖片的含義。就像下圖,手機插入的充電器多少有點不合適。人類一眼就能看出問題所在,但對 AI 來說,難度還是非常大的。

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

GPT-4 的出現,開始讓這些問題變得簡單,它能很快的指出圖中問題所在:VGA 線充iPhone 。

其實GPT-4 的魅力遠不及此,更炸場的是利用手繪草圖直接生成網站,在草稿紙上畫一個潦草的示意圖,拍張照片,然後發給GPT-4,讓它依照示意圖寫網站程式碼,咻咻的,GPT-4 就把網頁程式碼寫出來了。

但遺憾的是,GPT-4 這項功能目前仍未對外開放,想要上手體驗也無從談起。不過,已經有人等不及了,來自阿卜杜拉國王科技大學(KAUST)的團隊上手開發了一個 GPT-4 的類似產品 ——MiniGPT-4。團隊研究人員包括朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny,他們都來自 KAUST 的 Vision-CAIR 課題組。

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

  • #論文網址:https://github.com/Vision-CAIR/MiniGPT- 4/blob/main/MiniGPT_4.pdf
  • #論文首頁:https://minigpt-4.github.io/
  • #程式碼位址:https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4 展示了許多類似於GPT-4 的能力,例如生成詳細的圖像描述並從手寫草稿創建網站。此外,作者還觀察到 MiniGPT-4 的其他新興能力,包括根據給定的圖像創作故事和詩歌,提供解決圖像中顯示的問題的解決方案,根據食品照片教導使用者如何烹飪等。

MiniGPT-4 看圖片說話不在話下

MiniGPT-4 效果到底如何呢?我們先從幾個範例來說明。此外,為了更好的體驗 MiniGPT-4,建議使用英文輸入進行測試。

先檢視 MiniGPT-4 對圖片的描述能力。對於左邊的圖,MiniGPT-4 給出的答案大致為「圖片描述的是生長在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶,遠處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發生在現實世界嗎? MiniGPT-4 給出的答案是這張圖像在現實世界並不常見,並給出了原因。

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

接著,來看看 MiniGPT-4 圖片問答能力。問:「這棵植物出現了什麼問題?我該怎麼辦?」MiniGPT-4 不僅指出了問題所在,表示帶有棕色斑點的樹葉可能由真菌感染引起,並給出了治療步驟:

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

幾個範例看下來,MiniGPT-4 看圖片聊天的功能已經非常強大了。不僅如此,MiniGPT-4 還能從草圖創建網站。例如讓MiniGPT-4 依照左邊的草稿圖繪製出網頁,收到指令後,MiniGPT-4 給予對應的HTML 程式碼,依照要求給出了對應網站:

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

借助 MiniGPT-4,為圖片寫廣告詞也變得非常簡單。請 MiniGPT-4 為左邊的杯子寫廣告文案。 MiniGPT-4 精準的指出了杯子上有嗜睡貓圖案,非常適合咖啡愛好者以及貓愛好者使用,還指出了杯子的材質等等:

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

MiniGPT-4 還能對著一張圖片產生食譜,變身廚房小能手:

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

 解釋廣為流傳的梗圖:

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

#根據圖片寫詩:

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

此外,值得一提的是,MiniGPT-4 Demo 已經開放,線上可玩,大家可以親自體驗一番(建議使用英文測試):

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

Demo 網址:https://0810e8582bcad31944.gradio.live/

計畫一發佈,便引起網友廣泛關注。例如讓MiniGPT-4 解釋圖中的物件:

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

#下面還有更多網友的測試體驗:

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

#方法簡介

作者認為GPT-4 擁有先進的大型語言模型(LLM)是其具有先進的多模態生成能力的主要原因。為了研究這個現象,作者提出了 MiniGPT-4,它使用一個投影層將一個凍結的視覺編碼器和一個凍結的 LLM(Vicuna)對齊。

MiniGPT-4 由一個預先訓練的 ViT 和 Q-Former 視覺編碼器、一個單獨的線性投影層和一個先進的 Vicuna 大型語言模型組成。 MiniGPT-4 只需要訓練線性層,用來將視覺特徵與 Vicuna 對齊。

MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等

MiniGPT-4 進行了兩個階段的訓練。第一個傳統的預訓練階段使用大約 5 百萬對齊的圖像文字對,在 4 個 A100 GPU 上使用 10 小時進行訓練。第一階段後,Vicuna 能夠理解圖像。但是 Vicuna 文字生成能力受到了很大的影響。

為了解決這個問題並提高可用性,研究者提出了一種新穎的方式,透過模型本身和 ChatGPT 一起創建高品質的圖像文字對。基於此,該研究創建了一個小而高品質的數據集(總共 3500 對)。

第二个微调阶段使用对话模板在此数据集上进行训练,以显著提高其生成可靠性和整体可用性。这个阶段具有高效的计算能力,只需要一张 A100GPU 大约 7 分钟即可完成。

其他相关工作:

  • VisualGPT: https://github.com/Vision-CAIR/VisualGPT
  • ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner

此外,项目中还使用了开源代码库包括 BLIP2、Lavis 和 Vicuna。

以上是'MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等'的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境