首頁  >  文章  >  科技週邊  >  亮相CCIG2024,合合資訊文件解析技術破解大模型語料「飢荒」難題

亮相CCIG2024,合合資訊文件解析技術破解大模型語料「飢荒」難題

WBOY
WBOY原創
2024-05-31 22:28:49804瀏覽

2024年,中國圖象圖形大會在古都西安盛大開幕。本屆大會由中國圖象圖形學會主辦,空軍軍醫大學、西安交通大學、西北工業大學承辦,透過二十多場論壇、百餘項成果,集中展示了生產式人工智慧、大模型、機器學習、類腦計算等多個影像圖形領域的進展。

大模型技術正隨著科技革新實現廣泛應用,滿足多產業影像處理需求。大會期間,由CSIG文檔影像分析與識別專委會與上海合合資訊科技股份有限公司(簡稱「合合信恆」)共同主辦了《大模型技術及其前沿應用》論壇,來自華南理工大學、上海交通大學、清華大學、復旦大學、上海人工智慧實驗室、合合信恆等大學、研究機構及企業的專家代表就大模型技術在影像領域的發展、應用進行了深入研討。

亮相CCIG2024,合合資訊文件解析技術破解大模型語料「飢荒」難題

圖說:業界關注者聆聽《大模型技術及其前沿應用》論壇分享

#大模型一路「高歌猛進」的背後,隱藏著一場關於模型訓練語料的「能源危機」。根據人工智慧研究人員小組Epoch研究估計,機器學習資料集可能會在2026年前耗盡所有「高品質語言資料」。現階段,大量的高品質語料資料存在於書籍、論文、研報、企業文件等文件之中,複雜的版面結構制約了大模型的訓練語料處理及大模型文件問答的應用能力文件解析技術的進步,讓機器能夠辨識文件中的多種元素,更好地處理文字、表格、圖像等等多型別數據,還原文件閱讀順序,加速大模型訓練與應用。在論壇上,合合資訊智能創新事業部研發總監常揚分享了合合資訊智慧文件處理技術在文件解析領域的工作,為與會者帶來了新的技術視角。

文件解析的困難在於如何準確地辨識文件中的各個元素,並且理解其之間的邏輯關係,需要關注# '實體版面分析''邏輯版面分析#」據常揚介紹,物理版面分析著重於視覺特徵、文件佈局,主要任務是把相關性高的文字聚合到一個區域,比如一個段落,一個表格等等,並選用目標檢測任務進行建模,使用基於迴歸的單階段檢測模型進行擬合,從而獲得文件中各種各樣的佈局方式;邏輯版面分析側重於對語義特徵的分析,主要任務是把不同的文字塊根據語義建模,例如透過語意的層次關係,形成一個目錄樹結構。

文件解析技術中文件元素偵測、文字表格辨識、文件版面分析、閱讀順序還原等任務涉及對版面元素和版面整體佈局的判斷,是文件處理領域典型的技術難題。透過十幾年技術累積,合合資訊打通了電子檔解析、掃描檔圖片##處理##、文字辨識、表格辨識、版面分析、版面還原#和排版佈局等文件智慧化處理的全流程,面對電子文檔掃描件,能夠靈活地辨識文字、表格、無線表、跨頁表格、頁首、頁尾、公式、影像、流程圖等版面元素,精確地還原文件讀取順序,為大模型##領域提供了精準的訓練語料與文件問答應用體驗。 #

亮相CCIG2024,合合資訊文件解析技術破解大模型語料「飢荒」難題

圖說:高校研究者、學生排隊體驗智慧文件處理技術

「我們研究過程中發現,真實世界的文檔有著極為豐富的佈局類型,沒法單純地用單欄,雙欄、三欄等類別去定義。對齊(Alignment)等工作,以及生成式模型等前沿進展,將為版面分析帶來新的研究思路,合合資訊技術團隊也將持續在智慧文件處理領域深耕,讓新技術在行業中更快速地產生價值。

以上是亮相CCIG2024,合合資訊文件解析技術破解大模型語料「飢荒」難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn