目前的一個明顯趨勢是致力於建立更大更複雜的模型,這些模型擁有數百/數千億個參數,能夠產生令人印象深刻的語言輸出
然而,現有的大型語言模型主要集中在文字訊息上,無法理解視覺訊息。
因此多模態大型語言模型(MLLMs)領域的進展旨在解決這一限制,MLLMs將視覺和文字資訊整合到一個基於Transformer的單一模型中,使該模型能夠根據這兩種模態學習和產生內容。
MLLMs在各種實際應用中顯示出潛力,包括自然圖像理解和文字圖像理解。這些模型利用語言建模作為處理多模態問題的通用接口,使其能夠根據文本和視覺輸入處理和生成響應
然而,目前主要關注分辨率較低的自然圖像的MLLMs,對於文字密集圖像的研究還相對較少。因此,充分利用大規模多模態預訓練來處理文字影像成為MLLM研究的一個重要方向
#透過將文字影像納入訓練過程並開發基於文字和視覺資訊的模型,我們可以開啟涉及高解析度文字密集圖像的多模態應用的新可能性。
圖片
論文網址:https://arxiv.org/abs/2309.11419
#KOSMOS-2.5是一個基於文字密集圖像的多模態大型語言模型,它是在KOSMOS-2的基礎上發展而來的,突出了對於文字密集圖像的多模態閱讀和理解能力( Multimodal Literate Model)。
該模型的提出凸顯了其在理解文本密集型圖像方面的卓越性能,彌合了視覺和文本之間的差距
同時,這也標誌著任務範式的演變,從先前的編碼器-解碼器架構轉變為純解碼器架構
KOSMOS-2.5的目標是在文字豐富的圖像中實現無縫的視覺和文字資料處理,以便理解圖像內容並產生結構化文字描述。
圖1:KOSMOS-2.5概覽圖
KOSMOS-2.5是一個多模態模型,如圖1所示,它的目標是使用統一的框架來處理兩個緊密相關的任務
#第一個任務涉及產生具有空間感知的文字區塊,即同時產生文字區塊的內容與座標框。 需要被改寫的內容是:第一個任務涉及產生具有空間感知的文字區塊,即同時產生文字區塊的內容與座標框
第二項任務涉及使用Markdown格式產生結構化的文字輸出,並捕捉各種樣式和結構
#圖2:KOSMOS-2.5架構圖
根據圖2所示,兩個任務都使用了共享的Transformer架構和任務特定的提示
KOSMOS-2.5將基於ViT(Vision Transformer)的視覺編碼器與基於Transformer架構的解碼器結合,透過一個重採樣模組連接起來。
圖3:預訓練資料集
為了訓練這個模型,作者準備了一個龐大的資料集,其大小達到了324.4M,如圖3所示
#圖4:帶有邊界框的文字行的訓練樣本範例
圖5:Markdown格式的訓練樣本範例
此資料集包含各種類型的文字密集圖像,其中包括帶有邊界框的文字行和純文字的Markdown格式,圖4和圖5為訓練樣本範例視覺化。
這種多工訓練方法提升了KOSMOS-2.5在整體上的多模態能力
[圖6] 端對端的文件級文字辨識實驗
#圖7:從影像中產生Markdown格式文字實驗
如圖6和圖7所示,KOSMOS-2.5在兩個任務上進行評估:端到端的文件級文字辨識和從影像中產生Markdown格式文字。
KOSMOS-2.5在處理文字密集的圖像任務方面表現出色,實驗結果展示了這一點
##圖8:KOSMOS-2.5的輸入和輸出樣本展示
#KOSMOS-2.5在少樣本學習和零樣本學習的場景中展現了有前景的能力,使其成為處理文字豐富圖像的實際應用的多功能工具。可以將其視為一種多功能工具,能夠有效處理文本豐富的圖像,並在少樣本學習和零樣本學習的情況下展現出有前景的能力 作者指出,指令微調是一個很有前景的方法,可以實現模型更廣泛的應用能力。 在更廣泛的研究領域中,一個重要的方向在於進一步發展模型參數的擴展能力。 隨著任務範圍的不斷擴大和複雜性的不斷提高,擴展模型以處理更大量的資料對於文字密集的多模態模型的發展至關重要。 最終目標是發展出一個能有效解釋視覺和文字資料的模型,並在更多文字密集型多模態任務中順利推廣。 重寫內容時,需要將其改寫成中文,不需要出現原句https://arxiv.org/abs/2309.11419以上是文件字越多,模型越興奮! KOSMOS-2.5:閱讀「文字密集圖像」的多模態大語言模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!