ホームページ  >  記事  >  テクノロジー周辺機器  >  Tencent OCR チームが ICDAR コンテストで 4 回の優勝を獲得

Tencent OCR チームが ICDAR コンテストで 4 回の優勝を獲得

PHPz
PHPz転載
2023-10-20 18:45:041140ブラウズ

世界的なテキスト認識 (OCR) 分野のトップイベントである ICDAR 2023 で、テンセントの OCR チームは、自社開発のアルゴリズムに基づいて 4 つのチャンピオンシップを獲得しました。2017 年、2019 年以来、4 回連続でカンファレンスに参加するのはこれが初めてです。および 2021. 合計 18 の公式認定チャンピオンシップで優勝するという優れた成績は、テンセントの OCR テクノロジーが世界一流レベルであることを証明しています。

ICDAR カンファレンスは、世界的な文書画像の分析と認識の分野で認められた権威ある学術会議であり、2 年ごとに開催され、100 か国以上から約 8,000 のチームが参加しています。 ICDAR競技は、技術的難易度が非常に高く、実用性が高いことで国内外でよく知られており、試合後の非公式ランキングとは異なり、ICDARによって正式に認定された公式競技は、新たなデータセットを使用し、参加チームの情報や情報が反映されます。結果は競技中に発表されず、時間と結果提出回数を制限しながらの高難易度の「ブラインドタイピング」で行われます。

今年、Tencent OCR チームは Tencent データ プラットフォーム部門と WeChat テクノロジー アーキテクチャ部門で共同構成され、DSText (密集小文字ビデオ文字認識) と SVRD (構造化情報抽出) の 2 つの主要プロジェクトに焦点を当てます。大会に出場し、4つのトラックチャンピオンシップを獲得しました。

DSText トラック、Tencent が 2 つのチャンピオンシップすべてで優勝

DSText (Dense Small Text Video Text Recognition) コンテストでは、ビデオ テキストの追跡とビデオ テキストのエンドツーエンド認識という 2 つのタスクが設定されました。テキストは非常に高密度で非常に小さいため、環境干渉 (カメラの揺れ、モーション ブラー、照明の変化など) やポスト編集 (マルチレンズのスクリーン カット、人工的な背景、ゲーム インターフェイスの切り替えなど) と相まって、ビデオ フレームから正確に検出して追跡することは困難です。テキストを認識するには、アルゴリズムの高い堅牢性が必要であり、非常に困難です。コンテストのビデオ フレームの一部を以下に示します。

Tencent OCR チームが ICDAR コンテストで 4 回の優勝を獲得

ICDAR-DSText コンテストの概略フレーム

DSText コンテストの 2 つのタスクすべてにおいて、Tencent OCR チームは間違いなくチャンピオンシップへの道をリードするパフォーマンスを披露しました。

このうち、タスク 1 はビデオ内のすべてのテキスト ストリームを追跡し、ビデオ フレーム間の同じテキスト インスタンスに属する検出フレームを集計することを目的としています。評価指標は MOTA であり、Tencent が ## で 2 位をリードしています# 12.04% のスコアで優勝。

ビデオ テキスト トラッキング: チャンピオン証明書Tencent OCR チームが ICDAR コンテストで 4 回の優勝を獲得

ビデオ テキスト認識のエンドツーエンドのパフォーマンスを評価するように設計されたタスク 2 では、タスクはすべてのフレームでテキストを正しく検出する必要があります。ビデオ フレーム上で正しく追跡され、シーケンス レベルで正しく識別されました。評価指標は OCR-MOTA でした。Tencent が

と 2 位を 11.93% リードして優勝しました。

エンドツーエンドのビデオ テキスト認識: チャンピオンシップ証明書Tencent OCR チームが ICDAR コンテストで 4 回の優勝を獲得

SVRD トラック、Tencent が絶対的な優位性で 2 つのチャンピオンシップを獲得しました

SVRD( Structured Information Extraction) コンペティションには、HUST-CELL と BAIDU-FEST という 2 つの主要なトラックが含まれており、合計 4 つのタスクがあります: 複雑なドキュメント エンティティ関係抽出 (E2E Complex Entity Linking)、複雑なドキュメント エンティティのセマンティック抽出 (E2E Complex Entity Labeling)、およびゼロショット構造化情報抽出 (E2E ゼロショット構造化テキスト抽出) および小規模サンプルの構造化情報抽出 (フューショット構造化テキスト抽出)。ドキュメント画像の複雑なレイアウトと多様な構造、不規則な自然風景画像の収集、複雑な背景、破損、曲がり、変形などの問題により、競争は非常に困難です。いくつかのコンテストの写真を以下に示します:

Tencent OCR チームが ICDAR コンテストで 4 回の優勝を獲得

ICDAR-SVRD 構造化情報抽出コンテストの例

Tencent OCR チームは、SVRD コンテストで 2 つの優勝を獲得しました。

このうち、タスク 2 (E2E Complex Entity Labeling) は、タイトル、組織名、日付、金額、数字、製品名、人名など、複雑な文書画像上の意味エンティティを抽出することを目的としています。Tencent は、このタスクでは、大きなアドバンテージでチャンピオンシップを獲得しました。

Tencent OCR チームが ICDAR コンテストで 4 回の優勝を獲得

E2E 複雑なエンティティのラベル付け: チャンピオン証明書

タスク 4 (E2E の少数ショット構造化テキスト抽出) の質問非常に少量のトレーニング データを提供するという前提の下で、銀行カード、営業許可証、タクシーの請求書、買い物のレシート、交通機関の請求書、割当請求書、書類など 10 の異なるシナリオの画像の重要な情報が抽出されます。 Tencent も優勝しました。

Tencent OCR チームが ICDAR コンテストで 4 回の優勝を獲得

E2E フューショット構造化テキスト抽出: チャンピオン証明書

レポートによると、Tencent OCR チームは Tencent 内の専門チームであり、研究と開発に専念しています。 OCR技術、チームが独自に開発した高精度かつ安定性の高いテキスト検出・認識技術で、応用面では、Tencent Advertising、WeChat、QQ、Tencent Cloud、Tencent Video、 Tencent の情報フロー製品。

以上がTencent OCR チームが ICDAR コンテストで 4 回の優勝を獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。