文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 29, 2023 pm 08:13 PM

文件模型kosmos

目前的一個明顯趨勢是致力於建立更大更複雜的模型，這些模型擁有數百/數千億個參數，能夠產生令人印象深刻的語言輸出

然而，現有的大型語言模型主要集中在文字訊息上，無法理解視覺訊息。

因此多模態大型語言模型（MLLMs）領域的進展旨在解決這一限制，MLLMs將視覺和文字資訊整合到一個基於Transformer的單一模型中，使該模型能夠根據這兩種模態學習和產生內容。

MLLMs在各種實際應用中顯示出潛力，包括自然圖像理解和文字圖像理解。這些模型利用語言建模作為處理多模態問題的通用接口，使其能夠根據文本和視覺輸入處理和生成響應

然而，目前主要關注分辨率較低的自然圖像的MLLMs，對於文字密集圖像的研究還相對較少。因此，充分利用大規模多模態預訓練來處理文字影像成為MLLM研究的一個重要方向

#透過將文字影像納入訓練過程並開發基於文字和視覺資訊的模型，我們可以開啟涉及高解析度文字密集圖像的多模態應用的新可能性。

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型圖片

論文網址：https://arxiv.org/abs/2309.11419

#KOSMOS-2.5是一個基於文字密集圖像的多模態大型語言模型，它是在KOSMOS-2的基礎上發展而來的，突出了對於文字密集圖像的多模態閱讀和理解能力（ Multimodal Literate Model）。

該模型的提出凸顯了其在理解文本密集型圖像方面的卓越性能，彌合了視覺和文本之間的差距

同時，這也標誌著任務範式的演變，從先前的編碼器-解碼器架構轉變為純解碼器架構

KOSMOS-2.5的目標是在文字豐富的圖像中實現無縫的視覺和文字資料處理，以便理解圖像內容並產生結構化文字描述。

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型圖1：KOSMOS-2.5概覽圖

KOSMOS-2.5是一個多模態模型，如圖1所示，它的目標是使用統一的框架來處理兩個緊密相關的任務

#第一個任務涉及產生具有空間感知的文字區塊，即同時產生文字區塊的內容與座標框。需要被改寫的內容是：第一個任務涉及產生具有空間感知的文字區塊，即同時產生文字區塊的內容與座標框

第二項任務涉及使用Markdown格式產生結構化的文字輸出，並捕捉各種樣式和結構

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型 #圖2：KOSMOS-2.5架構圖

根據圖2所示，兩個任務都使用了共享的Transformer架構和任務特定的提示

KOSMOS-2.5將基於ViT（Vision Transformer）的視覺編碼器與基於Transformer架構的解碼器結合，透過一個重採樣模組連接起來。

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型圖3：預訓練資料集

為了訓練這個模型，作者準備了一個龐大的資料集，其大小達到了324.4M，如圖3所示

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型 #圖4：帶有邊界框的文字行的訓練樣本範例

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型圖5：Markdown格式的訓練樣本範例

此資料集包含各種類型的文字密集圖像，其中包括帶有邊界框的文字行和純文字的Markdown格式，圖4和圖5為訓練樣本範例視覺化。

這種多工訓練方法提升了KOSMOS-2.5在整體上的多模態能力

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型 [圖6] 端對端的文件級文字辨識實驗

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型 #圖7：從影像中產生Markdown格式文字實驗

如圖6和圖7所示，KOSMOS-2.5在兩個任務上進行評估：端到端的文件級文字辨識和從影像中產生Markdown格式文字。

KOSMOS-2.5在處理文字密集的圖像任務方面表現出色，實驗結果展示了這一點

文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型 ##圖8：KOSMOS-2.5的輸入和輸出樣本展示

#KOSMOS-2.5在少樣本學習和零樣本學習的場景中展現了有前景的能力，使其成為處理文字豐富圖像的實際應用的多功能工具。可以將其視為一種多功能工具，能夠有效處理文本豐富的圖像，並在少樣本學習和零樣本學習的情況下展現出有前景的能力

作者指出，指令微調是一個很有前景的方法，可以實現模型更廣泛的應用能力。

在更廣泛的研究領域中，一個重要的方向在於進一步發展模型參數的擴展能力。

隨著任務範圍的不斷擴大和複雜性的不斷提高，擴展模型以處理更大量的資料對於文字密集的多模態模型的發展至關重要。

最終目標是發展出一個能有效解釋視覺和文字資料的模型，並在更多文字密集型多模態任務中順利推廣。

重寫內容時，需要將其改寫成中文，不需要出現原句

https://arxiv.org/abs/2309.11419

以上是文件字越多，模型越興奮！ KOSMOS-2.5：閱讀「文字密集圖像」的多模態大語言模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它：認知（了解正在發生的事情）、欣賞（看到好處）、接納（面對挑戰）和責任（弄清我們的責任）。認知：人工智能無處不在，並且發展迅速我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進，在數學和復雜思維測試中取得了優異的成績，而就在一年前，它們還在這些測試中慘敗。想像一下，人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya

開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2：多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2，這是AI的重大進步，具有強大的視覺功能和針對移動設備優化的輕量級文本模型。以成功為基礎

AV字節：Meta＆＃039; llama 3.2，Google的雙子座1.5等

AV字節：Meta＆＃039; llama 3.2，Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀：進步，道德考慮和監管辯論的旋風。 OpenAI，Google，Meta和Microsoft等主要參與者已經釋放了一系列更新，從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本：聊天機器人真的可以在乎嗎？

與機器交談的人類成本：聊天機器人真的可以在乎嗎？Apr 11, 2025 pm 12:00 PM

連接的舒適幻想：我們在與AI的關係中真的在蓬勃發展嗎？這個問題挑戰了麻省理工學院媒體實驗室“用AI（AHA）”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館

了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹想像一下，您是科學家或工程師解決複雜問題 - 微分方程，優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力，但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya

3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2：多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步，具有增強的語言理解力，提高的準確性和出色的文本生成能力。它的能力t

使用dagster自動化數據質量檢查

使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證：與Dagster自動檢查和良好期望保持高數據質量對於數據驅動的業務至關重要。隨著數據量和源的增加，手動質量控制變得效率低下，容易出現錯誤。

大型機在人工智能時代有角色嗎？

大型機在人工智能時代有角色嗎？Apr 11, 2025 am 11:42 AM

大型機：AI革命的無名英雄雖然服務器在通用應用程序上表現出色並處理多個客戶端，但大型機是專為關鍵任務任務而建立的。這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

3 週前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新（2018.2.1 ）專業的PHP整合開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合，這些清單在安全評估過程中經常使用，而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表，幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上，他就可以存取所需的每種類型的清單。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

熱門話題

gmail信箱登陸入口在哪裡

7464

15

1376

52

steam的賬戶名稱是什麼格式

77

11

win11激活密鑰永久

45

19

NYT連接提示和答案

18

18