iFLYTEK ICDAR 2023: 画像およびテキスト認識が再び大きな栄光を達成し、4 つのチャンピオンシップを獲得-AI-php.cn

ホームページ

テクノロジー周辺機器

iFLYTEK ICDAR 2023: 画像およびテキスト認識が再び大きな栄光を達成し、4 つのチャンピオンシップを獲得

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 08, 2023 am 08:17 AM

業界アイフライテック

ICDAR 2023 (文書分析と認識に関する国際会議) は、文書画像の分析と認識の分野で最も重要な国際会議の 1 つとして、最近興味深いニュースを受け取りました:

iFlytek Research Institute of HKUST国立音声言語情報処理工学研究センター（以下、研究センター）は、複数行の数式認識、文書情報の位置と抽出、構造化の 3 つの競技会で 4 つの優勝を獲得しました。テキスト情報の抽出。

MLHMEトップ: 「複数行の書き込み」に焦点を当て、複雑さをブレークスルー

MLHME (複数行の数式認識コンテスト) テスト入力手書きの数式を含む画像の後、アルゴリズムは対応する LaTex 文字列の精度を出力します。特筆すべきは、これまでの数式認識コンテストと比較して、今回のコンテストは業界で初めて「複数行の書き込み」を主要な課題に設定したことです。撮影した手書き文字を認識します。主に複数行の数式を認識します。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

iFlytek Research Institute の画像およびテキスト認識チームが 67.9% のスコアで優勝し、主要な評価指標である式の再現率で他の参加チームを大きく上回りました。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

##数式の再現率は、リストの送信結果に対応します。

複数行の数式は、単一行の構造よりも複雑です。同じキャラクターがフォーミュラに頻繁に登場する出現する際にサイズも変化する同時に、コンテストで使用されるデータセットは実際のシーンからのものであり、撮影された手書きのフォーミュラ写真には低品質、背景の干渉、テキストの干渉、スミアリング、および注釈の干渉。これらの要因がゲームをより難しくしています。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军 #数式の構造が複雑で複数行を占めています

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军画質が高くなく、補正に干渉します

数式が複雑な構造を持ち、複数の行を占めるという問題を解決するために、チームはエンコーダ構造として大規模なコンボリューションカーネルを備えた Conv2former を使用します。これにより、モデルの視野が拡大され、構造的特徴がよりよく捕捉されます。 SSD プロセッサは、複数行の数式内の階層関係を洗練された方法で明示的にモデル化し、複雑な構造の一般化を大幅に改善し、構造化セマンティクスをより適切にモデル化します。

画質の問題によって引き起こされる文字のあいまいさの問題に対応して、チームはセマンティクスを強化したデコーダトレーニングアルゴリズムを革新的に提案しました。セマンティクスと視覚の共同トレーニングを通じて、デコーダは固有のドメイン知識を持ちます。文字の識別が難しい場合、モデルはドメイン知識を適応的に使用して推論を行い、最も合理的な認識結果を与えることができます。

文字サイズの大きな変化の問題に対応して、チームは適応文字スケール推定アルゴリズムとマルチスケール融合デコード戦略を提案しました。これにより、文字サイズの変化に対するモデルのロバスト性が大幅に向上しました。

DocILE

王冠:「ラインから 1 つ選ぶ」、文書情報の位置決めと抽出の 2 つのトラックの競争がリストのトップに輝きました DocILE (Document Information Location and Extraction Competition) は、半構造化ビジネス文書内の重要な情報の行項目を検索、抽出、識別する際の機械学習手法のパフォーマンスを評価します。

コンテストは、KILE と LIR の 2 つのトラックタスクに分かれています。 KILE タスクは、ドキュメント内の事前定義されたカテゴリのキー情報の場所を特定する必要があります。これに基づいて、LIR タスクは、各キー情報をさらにグループ化して、1 つのオブジェクト (数量、価格) などの異なる品目 (品目) に分けます。テーブル内の行。)お待ちください。 iFlytek とリサーチセンターは、ついに 2 つのトラックでチャンピオンシップを獲得しました。

KILE トラックランキング

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军 LIR トラックランキング

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军左は KILE トラックの説明、右は LIR トラックの説明です。

公式イベントによって与えられるタスクアイコンから、ドキュメントから抽出される情報が示されていることがわかります。品種は非常に多様です。このうち、KILE タスクでは、事前定義されたカテゴリのキー情報を抽出するだけでなく、キー情報の特定の場所を取得する必要があります。LIR タスクでは、1 つの行項目に 1 つのテーブルに複数行のテキストが含まれる場合があります。さらに、このコンテストのデータセットには多くの種類の情報が含まれており、文書形式も複雑かつ多様であるため、課題は大幅に増加しています。

共同チームはアルゴリズムレベルで 2 つの技術革新計画を提案しました:

事前トレーニング段階では、主催者から提供された注釈のない文書から 274 万ページの文書画像を抽出することにより、OCR 品質に基づいた文書フィルターを設計しました。次に、事前トレーニングされた言語モデルを使用してドキュメント内の各テキスト行の意味表現を取得し、さまざまな Top-K 構成 (GraphDoc 内のドキュメントの注意範囲) で事前トレーニングされたマスクされた文表現回復タスクを使用します。モデル A ハイパーパラメータ)

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

##データセットの微調整段階で、チームは事前トレーニングされた GraphDoc を使用してテキストボックスのマルチモーダル表現を抽出し、分類操作。分類結果に基づいて、マルチモーダル表現がインスタンス集約のための低レベルのアテンション融合モジュールに送信され、インスタンス集約に基づいて、高レベルのアテンション融合モジュールが品目インスタンスの集約を実現するために使用されます。提案されたアテンションフュージョンモジュールは同じ構造を持っていますが、相互にパラメータを共有していないため、KILE タスクと LIR タスクの両方に使用でき、良好な結果が得られます。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

#SVRD

栄冠: ゼロサンプルチケット構造化情報抽出タスク、事前トレーニングモデルテストで No.1 SVRD (構造化テキスト情報抽出) コンペティションは 4 つのトラックサブタスクに分かれており、iFlytek と研究センターは非常に困難なゼロサンプル構造化情報抽出サブトラック (タスク 3: E2E ゼロサンプル構造化) で競争しています。 1 位を獲得

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军ランキング順位

さまざまな種類の請求書で抽出する必要がある主要な要素の正式な指定に関連して、このトラックでは、参加チームがモデル出力を使用する必要があります。図内のこれらの主要な要素の対応する内容、「ゼロサンプル」は、トレーニングセットとテストセットの請求書タイプに重複がないことを意味します。エンドツーエンドの予測精度です。走行テストモデルのscore1とscore2の加重平均値が最終的な評価指標となります。

事前トレーニングモデルの場合、サンプルがゼロの場合、より高い要件が提示されます。一方、大会ではさまざまな請求書のフォーマットが存在し、乗車停留所名や発車時刻などがそれぞれ異なります。さらに、請求書の写真には背景の干渉、反射、テキストの重なりなどの問題があり、識別と抽出がさらに困難になります。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军さまざまな形式の請求書

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军請求書は縞模様の背景によって妨げられています

チームは当初、特徴抽出モデルを実行するためにコピー生成デュアルブランチデコード戦略を採用しました。フロントエンド OCR 結果の精度が高い場合は、OCR 結果を直接コピーします。OCR 結果の信頼レベルが低い場合は、フロントエンド OCR モデルによってもたらされる認識エラーを軽減するために新しい予測結果が生成されます

さらに、チームはOCR結果に基づいて文レベルのgraphdoc特徴も抽出します。特徴抽出モデルへの入力として、この特徴は画像、テキスト、場所、レイアウトのマルチモーダル特徴を統合し、より強力な特徴表現を持ちます。シングルモーダルのプレーンテキスト入力。

これに基づいて、チームは UniLM、LiLT、DocPrompt などの複数の要素抽出モデルを組み合わせて、最終的な要素抽出効果をさらに改善し、さまざまなシナリオや言語でより優れたパフォーマンスを発揮できるようにしました。

#教育、金融、医療などは、大規模モデルのマルチモーダル機能の向上を支援するために実装されています

今回は、ICDAR 2023 の関連イベントを課題として選択しました。 iFlytek の実際のビジネスにおける現実のシナリオのニーズから、イベント関連テクノロジーは教育、金融、医療、司法、インテリジェントハードウェアなどの分野にも浸透し、複数のビジネスや製品に力を与えています。

教育の分野では、手書きの数式認識の技術力が頻繁に活用されており、機械による正確な識別、判断、修正が可能です。例えば、iFlytek の AI 学習機におけるパーソナライズされた精密学習と AI 診断、教師が授業で使用する大型画面「iFlytek スマートウィンドウ」、生徒のパーソナライズされた学習マニュアルなどは、いずれも大きな成果を上げています。

少し前に、Spark Scientific Research Assistant が iFlytek Global 1024 Developer Festival メインフォーラムでリリースされました。論文読み取りの 3 つのコア機能の 1 つは、論文のインテリジェントな解釈を実現し、迅速に実行できます。関連する質問にお答えします。その後、高精度の式認識に基づいて、有機化学構造式、グラフィックス、アイコン、フローチャート、表などの構造化されたシーン認識の効果が向上し、この機能は科学研究者の効率向上にも役立ちます。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军 ##

文書情報の位置決めおよび抽出テクノロジーは、契約要素の抽出とレビュー、銀行請求要素の抽出、マーケティングコンテンツの消費者保護レビューやその他のシナリオなど、金融分野で広く使用されています。これらの技術により、文書やファイルのデータ分析、情報抽出、比較検討などの機能を実現し、ビジネスデータの迅速な入力、抽出、比較を支援することで、検討プロセスの効率化とコスト削減を実現します。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军この 1024 メインフォーラムでリリースされたパーソナル AI ヘルスアシスタントは iFlytek Xiaoyi です。チェックリストや検査指示をスキャンして分析や提案を行うだけでなく、薬箱をスキャンしてさらに問い合わせを行ったり、補助的な投薬提案を提供したりすることもできます。身体検査レポートの場合、ユーザーは写真を撮ってアップロードすることができ、iFlytek Xiaoyi は重要な情報を特定し、異常な指標を包括的に解釈し、積極的に問い合わせて、さらなる支援を提供できます。この機能は、文書情報の位置決めおよび抽出テクノロジーのサポートに依存しています。

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军 iFlytek の画像およびテキスト認識テクノロジーは、単一の単語認識からテキスト行認識に至るまで、アルゴリズムの進歩を続けています。より複雑な二次元構造の認識や章レベルの認識まで。より強力な画像およびテキスト認識テクノロジーにより、画像の説明、画像の質疑応答、画像認識の作成、文書の理解と処理などにおけるマルチモーダル大規模モデルの効果と可能性が向上します。

同時に、画像およびテキスト認識技術もまた、音声認識、音声合成、機械翻訳、およびその他の技術を組み合わせて体系的なイノベーションを形成し、強化された製品は、適用後により強力な機能とより明白な価値上の利点を示します。関連プロジェクトはまた、第 1 位を受賞しました。 2022年ウー・ウェンジュン人工知能技術進歩賞を受賞。新たな旅において、いくつかの ICDAR 2023 コンペティションにおける「更なる開花」は、画像とテキストの認識および理解技術の深さにおける iFlytek の継続的な進歩からのフィードバックであるだけでなく、その幅の継続的な拡大の確認でもあります。

以上がiFLYTEK ICDAR 2023: 画像およびテキスト認識が再び大きな栄光を達成し、4 つのチャンピオンシップを獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。