目前的一個明顯趨勢是致力於建立更大更複雜的模型,這些模型擁有數百/數千億個參數,能夠產生令人印象深刻的語言輸出
然而,現有的大型語言模型主要集中在文字訊息上,無法理解視覺訊息。
因此多模態大型語言模型(MLLMs)領域的進展旨在解決這一限制,MLLMs將視覺和文字資訊整合到一個基於Transformer的單一模型中,使該模型能夠根據這兩種模態學習和產生內容。
MLLMs在各種實際應用中顯示出潛力,包括自然圖像理解和文字圖像理解。這些模型利用語言建模作為處理多模態問題的通用接口,使其能夠根據文本和視覺輸入處理和生成響應
然而,目前主要關注分辨率較低的自然圖像的MLLMs,對於文字密集圖像的研究還相對較少。因此,充分利用大規模多模態預訓練來處理文字影像成為MLLM研究的一個重要方向
#透過將文字影像納入訓練過程並開發基於文字和視覺資訊的模型,我們可以開啟涉及高解析度文字密集圖像的多模態應用的新可能性。
圖片
論文網址:https://arxiv.org/abs/2309.11419
#KOSMOS-2.5是一個基於文字密集圖像的多模態大型語言模型,它是在KOSMOS-2的基礎上發展而來的,突出了對於文字密集圖像的多模態閱讀和理解能力( Multimodal Literate Model)。
該模型的提出凸顯了其在理解文本密集型圖像方面的卓越性能,彌合了視覺和文本之間的差距
同時,這也標誌著任務範式的演變,從先前的編碼器-解碼器架構轉變為純解碼器架構
KOSMOS-2.5的目標是在文字豐富的圖像中實現無縫的視覺和文字資料處理,以便理解圖像內容並產生結構化文字描述。
圖1:KOSMOS-2.5概覽圖
KOSMOS-2.5是一個多模態模型,如圖1所示,它的目標是使用統一的框架來處理兩個緊密相關的任務
#第一個任務涉及產生具有空間感知的文字區塊,即同時產生文字區塊的內容與座標框。 需要被改寫的內容是:第一個任務涉及產生具有空間感知的文字區塊,即同時產生文字區塊的內容與座標框
第二項任務涉及使用Markdown格式產生結構化的文字輸出,並捕捉各種樣式和結構
#圖2:KOSMOS-2.5架構圖
根據圖2所示,兩個任務都使用了共享的Transformer架構和任務特定的提示
KOSMOS-2.5將基於ViT(Vision Transformer)的視覺編碼器與基於Transformer架構的解碼器結合,透過一個重採樣模組連接起來。
圖3:預訓練資料集
為了訓練這個模型,作者準備了一個龐大的資料集,其大小達到了324.4M,如圖3所示
#圖4:帶有邊界框的文字行的訓練樣本範例
圖5:Markdown格式的訓練樣本範例
此資料集包含各種類型的文字密集圖像,其中包括帶有邊界框的文字行和純文字的Markdown格式,圖4和圖5為訓練樣本範例視覺化。
這種多工訓練方法提升了KOSMOS-2.5在整體上的多模態能力
[圖6] 端對端的文件級文字辨識實驗
#圖7:從影像中產生Markdown格式文字實驗
如圖6和圖7所示,KOSMOS-2.5在兩個任務上進行評估:端到端的文件級文字辨識和從影像中產生Markdown格式文字。
KOSMOS-2.5在處理文字密集的圖像任務方面表現出色,實驗結果展示了這一點
##圖8:KOSMOS-2.5的輸入和輸出樣本展示
以上是文件字越多,模型越興奮! KOSMOS-2.5:閱讀「文字密集圖像」的多模態大語言模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

Dreamweaver CS6
視覺化網頁開發工具