在全球文字辨識(OCR)領域頂級盛會ICDAR 2023上,騰訊OCR團隊基於自研演算法,斬獲四項冠軍,這是繼2017年、2019年、2021年以來,連續四次參會同時創造佳績,共獲得18項官方認證冠軍,展示了騰訊OCR技術在全球的一流水準。
ICDAR大會是全球文件影像分析識別領域公認的權威學術會議,每兩年舉辦一次,賽事舉辦至今已經吸引了超過100多個國家的近8000支隊伍參與其中。 ICDAR競賽因其極高的技術難度和強大的實用性享譽國內外,與賽後非正式刷榜不同,ICDAR官方認證的正式競賽採用全新的數據集,並且在比賽期間不公佈參賽團隊的資訊和成績,同時限制了結果提交時間和次數,屬於高難度的「盲打」。
今年,騰訊OCR參賽團隊是由騰訊資料平台部、微信技術架構部聯合組成,重點參加了DSText(稠密小文本視頻文本識別)和SVRD(結構化信息抽取)兩大項目的比賽,取得4項賽道冠軍。
DSText(稠密小文字視訊文字辨識)競賽設定了2個任務:視訊文字追蹤、視訊文字端到端辨識。由於文字非常密集且非常小,再加上環境幹擾(相機抖動、運動模糊、光照變化等)與後期編輯(多鏡頭切割屏、人工背景、遊戲界面切換等),從視頻幀中準確檢測、跟踪、辨識文字對演算法魯棒性要求很高,挑戰性極大。部分比賽影片畫面展示如下:
ICDAR-DSText競賽示意影格
在DSText競賽的全部2個任務中,騰訊OCR團隊都以絕對領先的優勢獲得冠軍。
其中,任務1中,旨在追蹤影片中所有文字流,將視訊影格間屬於同一個文字實例的偵測框聚合起來,評價指標是MOTA,騰訊以領先第二名12.04%的成績取得冠軍。
視訊文字追蹤:冠軍證書
在任務2中,旨在評估視訊文字辨識的端到端性能,任務要求在每個畫面上正確檢測文本,在視訊畫面上正確跟踪,並在序列層級正確識別,評價指標是OCR-MOTA,騰訊以領先第二名11.93%的成績取得冠軍。
視訊文字端對端辨識:冠軍證書
SVRD(結構化資訊擷取)競賽包含HUST-CELL和BAIDU-FEST兩大賽道共4個任務:複雜文檔實體關係提取(E2E Complex Entity Linking)、複雜文檔實體語義提取(E2E Complex Entity Labeling)、零樣本結構化資訊抽取(E2E Zero-shot Structured Text Extraction)和小樣本結構化資訊擷取(Few-shot Structured Text Extraction)。由於文件影像版式複雜、結構多樣,自然場景影像擷取不規範、存在背景複雜、折損、彎曲、形變等問題,競賽存在較大的挑戰難度。部分比賽圖片顯示如下:
ICDAR-SVRD結構化資訊擷取競賽範例
在SVRD競賽中騰訊OCR團隊共獲得了2個冠軍。
其中,任務2(E2E Complex Entity Labeling)旨在提取複雜文件圖像上的語義實體,如標題、機構名、日期、金額、數字、商品名、人名等,騰訊在這個任務上以較大優勢取得了冠軍
E2E Complex Entity Labeling:冠軍證書
任務4(E2E Few-shot Structured Text Extraction)賽題需要在在提供非常少量訓練數據的前提下,提取10個不同場景下的圖像的關鍵信息,如銀行卡、營業執照、出租車發票、購物小票、交通發票、定額發票、論文等場景下的關鍵信息,騰訊同樣取得了冠軍。
E2E Few-shot Structured Text Extraction:冠軍證書
據介紹,騰訊OCR團隊是騰訊內部致力於研究和開發OCR技術的專業團隊,團隊在技術上自主研發了高精準度、高穩定性的文本檢測和識別技術,在應用上,支持了騰訊內數百個業務場景,如騰訊廣告、微信、QQ、騰訊雲、騰訊視頻、騰訊資訊流產品。
以上是騰訊OCR團隊拿下ICDAR大賽四項冠軍的詳細內容。更多資訊請關注PHP中文網其他相關文章!