'MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等'-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

'MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等'

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 24, 2023 am 11:16 AM

aigpt

對人類來說，理解一張圖的訊息，不過是一件微不足道的小事，人類幾乎不用思考，就能隨口說出圖片的含義。就像下圖，手機插入的充電器多少有點不合適。人類一眼就能看出問題所在，但對 AI 來說，難度還是非常大的。

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

GPT-4 的出現，開始讓這些問題變得簡單，它能很快的指出圖中問題所在：VGA 線充iPhone 。

其實GPT-4 的魅力遠不及此，更炸場的是利用手繪草圖直接生成網站，在草稿紙上畫一個潦草的示意圖，拍張照片，然後發給GPT-4，讓它依照示意圖寫網站程式碼，咻咻的，GPT-4 就把網頁程式碼寫出來了。

但遺憾的是，GPT-4 這項功能目前仍未對外開放，想要上手體驗也無從談起。不過，已經有人等不及了，來自阿卜杜拉國王科技大學（KAUST）的團隊上手開發了一個 GPT-4 的類似產品 ——MiniGPT-4。團隊研究人員包括朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny，他們都來自 KAUST 的 Vision-CAIR 課題組。

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

#論文網址：https://github.com/Vision-CAIR/MiniGPT- 4/blob/main/MiniGPT_4.pdf
#論文首頁：https://minigpt-4.github.io/
#程式碼位址：https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4 展示了許多類似於GPT-4 的能力，例如生成詳細的圖像描述並從手寫草稿創建網站。此外，作者還觀察到 MiniGPT-4 的其他新興能力，包括根據給定的圖像創作故事和詩歌，提供解決圖像中顯示的問題的解決方案，根據食品照片教導使用者如何烹飪等。

MiniGPT-4 看圖片說話不在話下

MiniGPT-4 效果到底如何呢？我們先從幾個範例來說明。此外，為了更好的體驗 MiniGPT-4，建議使用英文輸入進行測試。

先檢視 MiniGPT-4 對圖片的描述能力。對於左邊的圖，MiniGPT-4 給出的答案大致為「圖片描述的是生長在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶，遠處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發生在現實世界嗎？ MiniGPT-4 給出的答案是這張圖像在現實世界並不常見，並給出了原因。

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

接著，來看看 MiniGPT-4 圖片問答能力。問：「這棵植物出現了什麼問題？我該怎麼辦？」MiniGPT-4 不僅指出了問題所在，表示帶有棕色斑點的樹葉可能由真菌感染引起，並給出了治療步驟：

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

幾個範例看下來，MiniGPT-4 看圖片聊天的功能已經非常強大了。不僅如此，MiniGPT-4 還能從草圖創建網站。例如讓MiniGPT-4 依照左邊的草稿圖繪製出網頁，收到指令後，MiniGPT-4 給予對應的HTML 程式碼，依照要求給出了對應網站：

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

借助 MiniGPT-4，為圖片寫廣告詞也變得非常簡單。請 MiniGPT-4 為左邊的杯子寫廣告文案。 MiniGPT-4 精準的指出了杯子上有嗜睡貓圖案，非常適合咖啡愛好者以及貓愛好者使用，還指出了杯子的材質等等：

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

MiniGPT-4 還能對著一張圖片產生食譜，變身廚房小能手：

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

解釋廣為流傳的梗圖：

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

#根據圖片寫詩：

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

此外，值得一提的是，MiniGPT-4 Demo 已經開放，線上可玩，大家可以親自體驗一番（建議使用英文測試）：

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

Demo 網址：https://0810e8582bcad31944.gradio.live/

計畫一發佈，便引起網友廣泛關注。例如讓MiniGPT-4 解釋圖中的物件：

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

#下面還有更多網友的測試體驗：

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

#方法簡介

作者認為GPT-4 擁有先進的大型語言模型（LLM）是其具有先進的多模態生成能力的主要原因。為了研究這個現象，作者提出了 MiniGPT-4，它使用一個投影層將一個凍結的視覺編碼器和一個凍結的 LLM（Vicuna）對齊。

MiniGPT-4 由一個預先訓練的 ViT 和 Q-Former 視覺編碼器、一個單獨的線性投影層和一個先進的 Vicuna 大型語言模型組成。 MiniGPT-4 只需要訓練線性層，用來將視覺特徵與 Vicuna 對齊。

MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等

MiniGPT-4 進行了兩個階段的訓練。第一個傳統的預訓練階段使用大約 5 百萬對齊的圖像文字對，在 4 個 A100 GPU 上使用 10 小時進行訓練。第一階段後，Vicuna 能夠理解圖像。但是 Vicuna 文字生成能力受到了很大的影響。

為了解決這個問題並提高可用性，研究者提出了一種新穎的方式，透過模型本身和 ChatGPT 一起創建高品質的圖像文字對。基於此，該研究創建了一個小而高品質的數據集（總共 3500 對）。

第二个微调阶段使用对话模板在此数据集上进行训练，以显著提高其生成可靠性和整体可用性。这个阶段具有高效的计算能力，只需要一张 A100GPU 大约 7 分钟即可完成。

其他相关工作：

VisualGPT: https://github.com/Vision-CAIR/VisualGPT
ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner

此外，项目中还使用了开源代码库包括 BLIP2、Lavis 和 Vicuna。

以上是'MiniGPT-4證明驚人的識圖能力和多項功能：看圖聊天、草圖建網站等'的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中，他提出了一種思想實驗，我們應該將其作為當今人工智能設計和使用決策的核心：無知的面紗。這一理念為理解公平提供了一個簡單的工具，也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。設想一下，您正在為一個新的社會制定規則。但有一個前提：您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮，健康或殘疾，屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作，可以防止規則制定者做出有利於自身的決策。相反，人們會更有動力製定公

決策，決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化（RPA），提供機器人以使重複的任務自動化 - UIPATH，在任何地方自動化，藍色棱鏡等。同時，過程採礦，編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現，能夠獨立行動和任務完成。這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理：研究

為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。當AI超越生產力並開始塑造我們的社會結構時，會發生什麼？ Topher McDougal即將出版的書Gaia Wakes：

用於產品分類的AI：機器可以總稅法嗎？Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼，例如諸如統一系統（HS）等系統的“ HS 8471.30”，對於國際貿易和國內銷售至關重要。這些代碼確保正確的稅收申請，影響每個INV

數據中心的需求會引發氣候技術反彈嗎？Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響，並分析了應對這一挑戰的創新解決方案和政策建議。能源需求的挑戰：大型超大規模數據中心耗電量巨大，堪比數十萬個普通北美家庭的總和，而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月，微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元（摩根大通，2024）（表1）。不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導，迫在眉睫的電

AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型，正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景，甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高，但其進步速度令人驚嘆。生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作，另一些則擅長真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显著退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles