對人類來說,理解一張圖的訊息,不過是一件微不足道的小事,人類幾乎不用思考,就能隨口說出圖片的含義。就像下圖,手機插入的充電器多少有點不合適。人類一眼就能看出問題所在,但對 AI 來說,難度還是非常大的。
GPT-4 的出現,開始讓這些問題變得簡單,它能很快的指出圖中問題所在:VGA 線充iPhone 。
其實GPT-4 的魅力遠不及此,更炸場的是利用手繪草圖直接生成網站,在草稿紙上畫一個潦草的示意圖,拍張照片,然後發給GPT-4,讓它依照示意圖寫網站程式碼,咻咻的,GPT-4 就把網頁程式碼寫出來了。
但遺憾的是,GPT-4 這項功能目前仍未對外開放,想要上手體驗也無從談起。不過,已經有人等不及了,來自阿卜杜拉國王科技大學(KAUST)的團隊上手開發了一個 GPT-4 的類似產品 ——MiniGPT-4。團隊研究人員包括朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny,他們都來自 KAUST 的 Vision-CAIR 課題組。
MiniGPT-4 展示了許多類似於GPT-4 的能力,例如生成詳細的圖像描述並從手寫草稿創建網站。此外,作者還觀察到 MiniGPT-4 的其他新興能力,包括根據給定的圖像創作故事和詩歌,提供解決圖像中顯示的問題的解決方案,根據食品照片教導使用者如何烹飪等。
MiniGPT-4 效果到底如何呢?我們先從幾個範例來說明。此外,為了更好的體驗 MiniGPT-4,建議使用英文輸入進行測試。
先檢視 MiniGPT-4 對圖片的描述能力。對於左邊的圖,MiniGPT-4 給出的答案大致為「圖片描述的是生長在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶,遠處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發生在現實世界嗎? MiniGPT-4 給出的答案是這張圖像在現實世界並不常見,並給出了原因。
接著,來看看 MiniGPT-4 圖片問答能力。問:「這棵植物出現了什麼問題?我該怎麼辦?」MiniGPT-4 不僅指出了問題所在,表示帶有棕色斑點的樹葉可能由真菌感染引起,並給出了治療步驟:
幾個範例看下來,MiniGPT-4 看圖片聊天的功能已經非常強大了。不僅如此,MiniGPT-4 還能從草圖創建網站。例如讓MiniGPT-4 依照左邊的草稿圖繪製出網頁,收到指令後,MiniGPT-4 給予對應的HTML 程式碼,依照要求給出了對應網站:
借助 MiniGPT-4,為圖片寫廣告詞也變得非常簡單。請 MiniGPT-4 為左邊的杯子寫廣告文案。 MiniGPT-4 精準的指出了杯子上有嗜睡貓圖案,非常適合咖啡愛好者以及貓愛好者使用,還指出了杯子的材質等等:
MiniGPT-4 還能對著一張圖片產生食譜,變身廚房小能手:
解釋廣為流傳的梗圖:
#根據圖片寫詩:
此外,值得一提的是,MiniGPT-4 Demo 已經開放,線上可玩,大家可以親自體驗一番(建議使用英文測試):
Demo 網址:https://0810e8582bcad31944.gradio.live/
計畫一發佈,便引起網友廣泛關注。例如讓MiniGPT-4 解釋圖中的物件:
#下面還有更多網友的測試體驗:
作者認為GPT-4 擁有先進的大型語言模型(LLM)是其具有先進的多模態生成能力的主要原因。為了研究這個現象,作者提出了 MiniGPT-4,它使用一個投影層將一個凍結的視覺編碼器和一個凍結的 LLM(Vicuna)對齊。
MiniGPT-4 由一個預先訓練的 ViT 和 Q-Former 視覺編碼器、一個單獨的線性投影層和一個先進的 Vicuna 大型語言模型組成。 MiniGPT-4 只需要訓練線性層,用來將視覺特徵與 Vicuna 對齊。
MiniGPT-4 進行了兩個階段的訓練。第一個傳統的預訓練階段使用大約 5 百萬對齊的圖像文字對,在 4 個 A100 GPU 上使用 10 小時進行訓練。第一階段後,Vicuna 能夠理解圖像。但是 Vicuna 文字生成能力受到了很大的影響。
為了解決這個問題並提高可用性,研究者提出了一種新穎的方式,透過模型本身和 ChatGPT 一起創建高品質的圖像文字對。基於此,該研究創建了一個小而高品質的數據集(總共 3500 對)。
第二个微调阶段使用对话模板在此数据集上进行训练,以显著提高其生成可靠性和整体可用性。这个阶段具有高效的计算能力,只需要一张 A100GPU 大约 7 分钟即可完成。
其他相关工作:
此外,项目中还使用了开源代码库包括 BLIP2、Lavis 和 Vicuna。
以上是"MiniGPT-4證明驚人的識圖能力和多項功能:看圖聊天、草圖建網站等"的詳細內容。更多資訊請關注PHP中文網其他相關文章!