首頁 >科技週邊 >人工智慧 >騰訊OCR團隊拿下ICDAR大賽四項冠軍

騰訊OCR團隊拿下ICDAR大賽四項冠軍

PHPz轉載: 2023-10-20 18:45:041456瀏覽

在全球文字辨識（OCR）領域頂級盛會ICDAR 2023上，騰訊OCR團隊基於自研演算法，斬獲四項冠軍，這是繼2017年、2019年、2021年以來，連續四次參會同時創造佳績，共獲得18項官方認證冠軍，展示了騰訊OCR技術在全球的一流水準。

ICDAR大會是全球文件影像分析識別領域公認的權威學術會議，每兩年舉辦一次，賽事舉辦至今已經吸引了超過100多個國家的近8000支隊伍參與其中。 ICDAR競賽因其極高的技術難度和強大的實用性享譽國內外，與賽後非正式刷榜不同，ICDAR官方認證的正式競賽採用全新的數據集，並且在比賽期間不公佈參賽團隊的資訊和成績，同時限制了結果提交時間和次數，屬於高難度的「盲打」。

今年，騰訊OCR參賽團隊是由騰訊資料平台部、微信技術架構部聯合組成，重點參加了DSText（稠密小文本視頻文本識別）和SVRD（結構化信息抽取）兩大項目的比賽，取得4項賽道冠軍。

DSText賽道，騰訊包辦全部兩項冠軍

DSText（稠密小文字視訊文字辨識）競賽設定了2個任務：視訊文字追蹤、視訊文字端到端辨識。由於文字非常密集且非常小，再加上環境幹擾（相機抖動、運動模糊、光照變化等）與後期編輯（多鏡頭切割屏、人工背景、遊戲界面切換等），從視頻幀中準確檢測、跟踪、辨識文字對演算法魯棒性要求很高，挑戰性極大。部分比賽影片畫面展示如下：

騰訊OCR團隊拿下ICDAR大賽四項冠軍

ICDAR-DSText競賽示意影格

在DSText競賽的全部2個任務中，騰訊OCR團隊都以絕對領先的優勢獲得冠軍。

其中，任務1中，旨在追蹤影片中所有文字流，將視訊影格間屬於同一個文字實例的偵測框聚合起來，評價指標是MOTA，騰訊以領先第二名12.04%的成績取得冠軍。

騰訊OCR團隊拿下ICDAR大賽四項冠軍視訊文字追蹤：冠軍證書

在任務2中，旨在評估視訊文字辨識的端到端性能，任務要求在每個畫面上正確檢測文本，在視訊畫面上正確跟踪，並在序列層級正確識別，評價指標是OCR-MOTA，騰訊以領先第二名11.93%的成績取得冠軍。

騰訊OCR團隊拿下ICDAR大賽四項冠軍視訊文字端對端辨識：冠軍證書

SVRD賽道，騰訊以絕對優勢獲得兩項冠軍

SVRD（結構化資訊擷取）競賽包含HUST-CELL和BAIDU-FEST兩大賽道共4個任務:複雜文檔實體關係提取(E2E Complex Entity Linking)、複雜文檔實體語義提取(E2E Complex Entity Labeling)、零樣本結構化資訊抽取(E2E Zero-shot Structured Text Extraction)和小樣本結構化資訊擷取(Few-shot Structured Text Extraction)。由於文件影像版式複雜、結構多樣，自然場景影像擷取不規範、存在背景複雜、折損、彎曲、形變等問題，競賽存在較大的挑戰難度。部分比賽圖片顯示如下：

騰訊OCR團隊拿下ICDAR大賽四項冠軍