搜尋
首頁科技週邊人工智慧阿里7B多模態文件理解大模型拿下新SOTA

多模態文件理解能力新SOTA!

阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl 1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。

話不多說,先來看效果。

複雜結構的圖表一鍵辨識轉換為Markdown格式:

阿里7B多模態文件理解大模型拿下新SOTA

#不同樣式的圖表都可以:

阿里7B多模態文件理解大模型拿下新SOTA

#更細節的文字辨識與定位也能輕鬆搞定:

阿里7B多模態文件理解大模型拿下新SOTA

#還能對文件理解給出詳細解釋:

阿里7B多模態文件理解大模型拿下新SOTA

#要知道,「文檔理解」目前是大語言模型實現落地的一個重要場景,市面上有很多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理解可以達到不錯的文件理解能力。

不過,由於文件圖片類別多元、文字豐富且排版複雜,難以實現圖表、資訊圖表、網頁等結構複雜圖片的一般理解。

目前爆火的多模態大模型QwenVL-Max、Gemini, Claude3、GPT4V都具備很強的文檔圖片理解能力,然而開源模型在這個方向上的進展緩慢。

而阿里新研究mPLUG-DocOwl 1.5在10個文檔理解基準上拿下SOTA,5個資料集上提升超過10個點,部分資料集上超過智譜17.3B的CogAgent,在DocVQA上達到82.2的效果。

阿里7B多模態文件理解大模型拿下新SOTA

除了具備基準上簡單回答的能力,透過少量「詳細解釋」(reasoning)資料的微調,DocOwl 1.5-Chat也能具備多模態文件領域詳細解釋的能力,具有很大的應用潛力。

阿里mPLUG團隊從2023年7月份開始投入多模態文件理解的研究,陸續發布了mPLUG-DocOwl、 UReader、mPLUG-PaperOwl、mPLUG-DocOwl 1.5,開源了一系列文件理解大模型和訓練資料。

本文從最新工作mPLUG-DocOwl 1.5出發,剖析「多模態文件理解」領域的關鍵挑戰和有效解決方案。

挑戰一:高解析度圖片文字辨識

區分於一般圖片,文件圖片的特點在於形狀大小多樣化,其可以包含A4大小的文件圖、短而寬的表格圖、長而窄的手機網頁截圖以及隨手拍攝的場景圖等等,解析度的分佈十分廣泛。

主流的多模態大模型編碼圖片時,往往直接縮放圖片的大小,例如mPLUG-Owl2和QwenVL縮放到448x448,LLaVA 1.5縮放到336x336。

簡單的縮放文件圖片會導致圖片中的文字模糊形變從而不可辨認。

為了處理文件圖片,mPLUG-DocOwl 1.5延續了其前序工作UReader的切圖做法,模型結構如圖1所示:

阿里7B多模態文件理解大模型拿下新SOTA

#△圖1:DocOwl 1.5模型結構圖

UReader最早提出在已有多模態大模型的基礎上,透過無參數的形狀適應切圖模組(Shape -adaptive Cropping Module)得到一系列子圖,每張子圖透過低解析度編碼器進行編碼,最後透過語言模型關聯子圖直接的語意。

此切圖策略可以最大程度利用已有通用視覺編碼器(例如CLIP ViT-14/L)的能力進行文件理解,大幅減少重新訓練高分辨率視覺編碼器的代價。形狀適應的切圖模組如圖2所示:

阿里7B多模態文件理解大模型拿下新SOTA
△图2:形状适应的切图模块。

挑战二:通用文档结构理解

对于不依赖OCR系统的文档理解来说,识别文字是基本能力,要实现文档内容的语义理解、结构理解十分重要,例如理解表格内容需要理解表头和行列的对应关系,理解图表需要理解线图、柱状图、饼图等多样化结构,理解合同需要理解日期署名等多样化的键值对。

mPLUG-DocOwl 1.5着力于解决通用文档等结构理解能力,通过模型结构的优化和训练任务的增强实现了显著更强的通用文档理解能力。

结构方面,如图1所示,mPLUG-DocOwl 1.5放弃了mPLUG-Owl/mPLUG-Owl2中Abstractor的视觉语言连接模块,采用基于“卷积 全连接层”的H-Reducer进行特征聚合以及特征对齐

相比于基于learnable queries的Abstractor,H-Reducer保留了视觉特征之间的相对位置关系,更好的将文档结构信息传递给语言模型。

相比于保留视觉序列长度的MLP,H-Reducer通过卷积大幅缩减了视觉特征数量,使得LLM可以更高效地理解高分辨率文档图片。

考虑到大部分文档图片中文字优先水平排布,水平方向的文字语义具有连贯性,H-Reducer中采用1x4的卷积形状和步长。论文中,作者通过充分的对比实验证明了H-Reducer在结构理解方面的优越性以及1x4是更通用的聚合形状。

训练任务方面,mPLUG-DocOwl 1.5为所有类型的图片设计了统一结构学习(Unified Structure Learning)任务,如图3所示。

阿里7B多模態文件理解大模型拿下新SOTA

△图3:统一结构学习

Unified Structure Learning既包括了全局的图片文字解析,又包含了多粒度的文字识别和定位。

在全局图片文字解析任务中,对于文档图片和网页图片,采用空格和换行的形式可以最通用地表示文字的结构;对于表格,作者在Markdown语法的基础上引入表示多行多列的特殊字符,兼顾了表格表示的简洁性和通用性;对于图表,考虑到图表是表格数据的可视化呈现,作者同样采用Markdown形式的表格作为图表的解析目标;对于自然图,语义描述和场景文字同等重要,因此采用图片描述拼接场景文字的形式作为解析目标。

在“文字识别和定位”任务中,为了更贴合文档图片理解,作者设计了单词、词组、行、块四种粒度的文字识别和定位,bounding box采用离散化的整数数字表示,范围0-999。

为了支持统一的结构学习,作者构建了一个全面的训练集DocStruct4M,涵盖了文档/网页、表格、图表、自然图等不同类型的图片。

经过统一结构学习,DocOwl 1.5具备多领域文档图片的结构化解析和文字定位能力。

阿里7B多模態文件理解大模型拿下新SOTA

阿里7B多模態文件理解大模型拿下新SOTA

△图4: 结构化文字解析

如图4和图5所示:

阿里7B多模態文件理解大模型拿下新SOTA

△图5: 多粒度文字识别和定位

挑战三:指令遵循

“指令遵循”(Instruction Following)要求模型基于基础的文档理解能力,根据用户的指令执行不同的任务,例如信息抽取、问答、图片描述等。

延续mPLUG-DocOwl的做法,DocOwl 1.5将多个下游任务统一为指令问答的形式,在统一的结构学习之后,通过多任务联合训练的形式得到一个文档领域的通用模型(generalist)

此外,为了使得模型具备详细解释的能力,mPLUG-DocOwl曾尝试引入纯文本指令微调数据进行联合训练,有一定效果但并不理想。

在DocOwl 1.5中,作者基于下游任务的问题,通过GPT3.5以及GPT4V构建了少量的详细解释数据(DocReason25K)

透過聯合文件下游任務和DocReason25K進行訓練,DocOwl 1.5-Chat既可以在基準上實現更優的效果:

阿里7B多模態文件理解大模型拿下新SOTA

△圖6:文檔理解Benchmark評測

又能給予詳細的解釋:

阿里7B多模態文件理解大模型拿下新SOTA

#△圖7:文件理解詳細解釋

挑戰四:外部知識引入

文件圖片由於資訊的豐富性,進行理解的時候往往需要額外的知識引入,例如特殊領域的專業名詞及其意義等等。

為了研究如何引入外部知識進行更好的文檔理解,mPLUG團隊著手於論文領域提出了mPLUG-PaperOwl,構建了一個高品質論文圖表分析資料集M-Paper,涉及447k的高清論文圖表。

該資料中為論文中的圖表提供了上下文作為外部知識來源,並且設計了「要點」(outline)作為圖表分析的控制訊號,幫助模型更好地掌握用戶的意圖。

基於UReader,作者在M-Paper上微調得到mPLUG-PaperOwl,展現了初步的論文圖表分析能力,如圖8所示。

阿里7B多模態文件理解大模型拿下新SOTA

△圖8:論文圖表分析

mPLUG-PaperOwl目前只是引入外部知識進文檔理解的初步嘗試,仍然面臨著領域局限性、知識來源單一等問題需要進一步解決。

總的來說,本文從最近發布的7B最強多模態文檔理解大模型mPLUG-DocOwl 1.5出發,總結了不依賴OCR的情況下,進行多模態文檔理解的關鍵四個關鍵挑戰(“高解析度圖片文字識別”,“通用文件結構理解”,“指令遵循”, “外部知識引入” )和阿里巴巴mPLUG團隊給出的解決方案。

儘管mPLUG-DocOwl 1.5大幅提升了開源模型的文檔理解表現,其距離閉源大模型以及現實需求仍然有較大差距,在自然場景中文字識別、數學計算、通用型等方面仍然有進步空間。

mPLUG團隊會進一步優化DocOwl的效能並進行開源,歡迎大家持續關注和友好討論!

GitHub連結:https://github.com/X-PLUG/mPLUG-DocOwl
論文連結:https://arxiv.org/abs/2403.12895

以上是阿里7B多模態文件理解大模型拿下新SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器