首頁 >科技週邊 >人工智慧 >曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?

WBOY
WBOY轉載
2024-01-05 21:23:581089瀏覽

想將一份文件圖片轉換成Markdown格式?

以往這項任務需要文字辨識、佈局偵測與排序、公式表格處理、文字清洗等多個步驟-

這次,只需一句話指令,多模態大模型Vary直接端對端輸出結果:

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?#圖片

無論是中英文的大段文字:

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?圖片

也包含了公式的文件圖片

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?##圖片

#又或是手機頁面截圖:

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?圖片

#甚至可以將圖片中的表格轉換成latex格式:

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?圖片

當然,作為一個多模大型模型,保持通用能力是必不可少的

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?#圖片

Vary表現出了很大的潛力和極高的上限,OCR可以不再需要冗長的pipline,直接端對端輸出,並且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。

透過強大的語言先驗,這種架構可以避免OCR中的易錯字,如「槓桿」和「杜桿」等。對於模糊文檔,借助語言先驗的幫助,也有望實現更強的OCR效果

引發了不少網友的關注的項目一經推出,立即引起了廣泛討論。其中一位網友在看到後直呼「殺爆了!」

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?圖片

這樣的效果是如何實現的呢?

受大模型啟發打造

目前的多模態大模型幾乎都是用CLIP作為Vision Encoder或說視覺詞表。確實,在400M圖像文字對訓練的CLIP有很強的視覺文字對齊能力,可以涵蓋多數日常任務下的圖像編碼。

但對於密集和細粒度感知任務,例如文檔層級的OCR、Chart理解,特別是在非英文場景,CLIP表現出了明顯的

編碼低效和out-of-vocabulary問題。

純NLP大模型(如LLaMA)從英文過渡到中文(對大模型來說是“外語”)時,因為原始詞表編碼中文效率低,必須要擴大text詞表才能實現較好的效果。

研究團隊從中得到了啟發,正是因為這個特點

現在基於CLIP視覺詞表的多模態大模型,面臨著同樣的問題,遇到“foreign language image ”,如一頁論文密密麻麻的文字,很難有效率地將圖片token化。

Vary是為解決這個問題而提供的解決方案,它可以在不重新建立原始詞表的情況下,高效地擴充視覺詞表

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?圖片

不同於現有方法直接用現成的CLIP詞表,Vary分兩個階段:

首先,我們將在第一階段使用一個小型的僅解碼器網絡,以自回歸的方式生成一個強大的新視覺詞表

接下來,在第二階段將新詞表和CLIP詞表進行融合,以便高效地訓練LVLM並賦予其新的特性

以下是Vary的訓練方法和模型結構圖示:

曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?

#透過在公開資料集以及渲染生成的文檔圖表等資料上訓練,Vary極大增強了細粒度的視覺感知能力。

在維持vanilla多模態能力的同時,激發出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,研究團隊注意到原本可能需要數千tokens 的頁面內容,透過文件圖片輸入,資訊被Vary壓縮在了256個圖片tokens中,這也為進一步的頁面分析和總結提供了更多的想像空間。

目前,Vary的程式碼和模型都已開源,也給了供大家試玩的網頁demo。

有興趣的朋友可以去試試了~

以上是曠視開源多模態大模型,支援文件級OCR,涵蓋中英文,是否標誌著OCR的終結?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除