ICDAR 2023 (文書分析と認識に関する国際会議) は、文書画像の分析と認識の分野で最も重要な国際会議の 1 つとして、最近興味深いニュースを受け取りました:
iFlytek Research Institute of HKUST国立音声言語情報処理工学研究センター(以下、研究センター)は、複数行の数式認識、文書情報の位置と抽出、構造化の 3 つの競技会で 4 つの優勝を獲得しました。テキスト情報の抽出。
MLHMEトップ: 「複数行の書き込み」に焦点を当て、複雑さをブレークスルー
MLHME (複数行の数式認識コンテスト) テスト入力手書きの数式を含む画像の後、アルゴリズムは対応する LaTex 文字列の精度を出力します。特筆すべきは、これまでの数式認識コンテストと比較して、今回のコンテストは業界で初めて「複数行の書き込み」を主要な課題に設定したことです。撮影した手書き文字を認識します。主に複数行の数式を認識します。
iFlytek Research Institute の画像およびテキスト認識チームが 67.9% のスコアで優勝し、主要な評価指標である式の再現率で他の参加チームを大きく上回りました。
#数式の構造が複雑で複数行を占めています
画質が高くなく、補正に干渉します
数式が複雑な構造を持ち、複数の行を占めるという問題を解決するために、チームはエンコーダ構造として大規模なコンボリューション カーネルを備えた Conv2former を使用します。これにより、モデルの視野が拡大され、構造的特徴がよりよく捕捉されます。 SSD プロセッサは、複数行の数式内の階層関係を洗練された方法で明示的にモデル化し、複雑な構造の一般化を大幅に改善し、構造化セマンティクスをより適切にモデル化します。
画質の問題によって引き起こされる文字のあいまいさの問題に対応して、チームはセマンティクスを強化したデコーダ トレーニング アルゴリズムを革新的に提案しました。セマンティクスと視覚の共同トレーニングを通じて、デコーダは固有のドメイン知識を持ちます。文字の識別が難しい場合、モデルはドメイン知識を適応的に使用して推論を行い、最も合理的な認識結果を与えることができます。
文字サイズの大きな変化の問題に対応して、チームは適応文字スケール推定アルゴリズムとマルチスケール融合デコード戦略を提案しました。これにより、文字サイズの変化に対するモデルのロバスト性が大幅に向上しました。
DocILE王冠:「ラインから 1 つ選ぶ」、文書情報の位置決めと抽出の 2 つのトラックの競争がリストのトップに輝きました DocILE (Document Information Location and Extraction Competition) は、半構造化ビジネス文書内の重要な情報の行項目を検索、抽出、識別する際の機械学習手法のパフォーマンスを評価します。
コンテストは、KILE と LIR の 2 つのトラック タスクに分かれています。 KILE タスクは、ドキュメント内の事前定義されたカテゴリのキー情報の場所を特定する必要があります。これに基づいて、LIR タスクは、各キー情報をさらにグループ化して、1 つのオブジェクト (数量、価格) などの異なる品目 (品目) に分けます。テーブル内の行。)お待ちください。 iFlytek とリサーチ センターは、ついに 2 つのトラックでチャンピオンシップを獲得しました。
KILE トラック ランキングLIR トラック ランキング
左は KILE トラックの説明、右は LIR トラックの説明です。
公式イベントによって与えられるタスク アイコンから、ドキュメントから抽出される情報が示されていることがわかります。品種は非常に多様です。このうち、KILE タスクでは、事前定義されたカテゴリのキー情報を抽出するだけでなく、キー情報の特定の場所を取得する必要があります。LIR タスクでは、1 つの行項目に 1 つのテーブルに複数行のテキストが含まれる場合があります。さらに、このコンテストのデータセットには多くの種類の情報が含まれており、文書形式も複雑かつ多様であるため、課題は大幅に増加しています。
共同チームはアルゴリズム レベルで 2 つの技術革新計画を提案しました:
事前トレーニング段階では、主催者から提供された注釈のない文書から 274 万ページの文書画像を抽出することにより、OCR 品質に基づいた文書フィルターを設計しました。次に、事前トレーニングされた言語モデルを使用してドキュメント内の各テキスト行の意味表現を取得し、さまざまな Top-K 構成 (GraphDoc 内のドキュメントの注意範囲) で事前トレーニングされたマスクされた文表現回復タスクを使用します。モデル A ハイパーパラメータ)
栄冠: ゼロサンプルチケット構造化情報抽出タスク、事前トレーニングモデルテストで No.1 SVRD (構造化テキスト情報抽出) コンペティションは 4 つのトラック サブタスクに分かれており、iFlytek と研究センターは非常に困難なゼロサンプル構造化情報抽出サブトラック (タスク 3: E2E ゼロサンプル構造化) で競争しています。 1 位を獲得
ランキング順位
さまざまな種類の請求書で抽出する必要がある主要な要素の正式な指定に関連して、このトラックでは、参加チームがモデル出力を使用する必要があります。図内のこれらの主要な要素の対応する内容、「ゼロサンプル」は、トレーニング セットとテスト セットの請求書タイプに重複がないことを意味します。エンドツーエンドの予測精度です。走行テストモデルのscore1とscore2の加重平均値が最終的な評価指標となります。
事前トレーニング モデルの場合、サンプルがゼロの場合、より高い要件が提示されます。一方、大会ではさまざまな請求書のフォーマットが存在し、乗車停留所名や発車時刻などがそれぞれ異なります。さらに、請求書の写真には背景の干渉、反射、テキストの重なりなどの問題があり、識別と抽出がさらに困難になります。
さまざまな形式の請求書
請求書は縞模様の背景によって妨げられています
チームは当初、特徴抽出モデルを実行するためにコピー生成デュアルブランチ デコード戦略を採用しました。フロントエンド OCR 結果の精度が高い場合は、OCR 結果を直接コピーします。OCR 結果の信頼レベルが低い場合は、フロントエンド OCR モデルによってもたらされる認識エラーを軽減するために新しい予測結果が生成されます
さらに、チームはOCR結果に基づいて文レベルのgraphdoc特徴も抽出します。特徴抽出モデルへの入力として、この特徴は画像、テキスト、場所、レイアウトのマルチモーダル特徴を統合し、より強力な特徴表現を持ちます。シングルモーダルのプレーンテキスト入力。
これに基づいて、チームは UniLM、LiLT、DocPrompt などの複数の要素抽出モデルを組み合わせて、最終的な要素抽出効果をさらに改善し、さまざまなシナリオや言語でより優れたパフォーマンスを発揮できるようにしました。
#教育、金融、医療などは、大規模モデルのマルチモーダル機能の向上を支援するために実装されています
今回は、ICDAR 2023 の関連イベントを課題として選択しました。 iFlytek の実際のビジネスにおける現実のシナリオのニーズから、イベント関連テクノロジーは教育、金融、医療、司法、インテリジェント ハードウェアなどの分野にも浸透し、複数のビジネスや製品に力を与えています。
教育の分野では、手書きの数式認識の技術力が頻繁に活用されており、機械による正確な識別、判断、修正が可能です。例えば、iFlytek の AI 学習機におけるパーソナライズされた精密学習と AI 診断、教師が授業で使用する大型画面「iFlytek スマート ウィンドウ」、生徒のパーソナライズされた学習マニュアルなどは、いずれも大きな成果を上げています。 少し前に、Spark Scientific Research Assistant が iFlytek Global 1024 Developer Festival メイン フォーラムでリリースされました。論文読み取りの 3 つのコア機能の 1 つは、論文のインテリジェントな解釈を実現し、迅速に実行できます。関連する質問にお答えします。その後、高精度の式認識に基づいて、有機化学構造式、グラフィックス、アイコン、フローチャート、表などの構造化されたシーン認識の効果が向上し、この機能は科学研究者の効率向上にも役立ちます。##
文書情報の位置決めおよび抽出テクノロジーは、契約要素の抽出とレビュー、銀行請求要素の抽出、マーケティング コンテンツの消費者保護レビューやその他のシナリオなど、金融分野で広く使用されています。これらの技術により、文書やファイルのデータ分析、情報抽出、比較検討などの機能を実現し、ビジネスデータの迅速な入力、抽出、比較を支援することで、検討プロセスの効率化とコスト削減を実現します。
この 1024 メイン フォーラムでリリースされたパーソナル AI ヘルス アシスタントは iFlytek Xiaoyi です。チェックリストや検査指示をスキャンして分析や提案を行うだけでなく、薬箱をスキャンしてさらに問い合わせを行ったり、補助的な投薬提案を提供したりすることもできます。身体検査レポートの場合、ユーザーは写真を撮ってアップロードすることができ、iFlytek Xiaoyi は重要な情報を特定し、異常な指標を包括的に解釈し、積極的に問い合わせて、さらなる支援を提供できます。この機能は、文書情報の位置決めおよび抽出テクノロジーのサポートに依存しています。
iFlytek の画像およびテキスト認識テクノロジーは、単一の単語認識からテキスト行認識に至るまで、アルゴリズムの進歩を続けています。より複雑な二次元構造の認識や章レベルの認識まで。より強力な画像およびテキスト認識テクノロジーにより、画像の説明、画像の質疑応答、画像認識の作成、文書の理解と処理などにおけるマルチモーダル大規模モデルの効果と可能性が向上します。
同時に、画像およびテキスト認識技術もまた、音声認識、音声合成、機械翻訳、およびその他の技術を組み合わせて体系的なイノベーションを形成し、強化された製品は、適用後により強力な機能とより明白な価値上の利点を示します。関連プロジェクトはまた、第 1 位を受賞しました。 2022年ウー・ウェンジュン人工知能技術進歩賞を受賞。新たな旅において、いくつかの ICDAR 2023 コンペティションにおける「更なる開花」は、画像とテキストの認識および理解技術の深さにおける iFlytek の継続的な進歩からのフィードバックであるだけでなく、その幅の継続的な拡大の確認でもあります。
以上がiFLYTEK ICDAR 2023: 画像およびテキスト認識が再び大きな栄光を達成し、4 つのチャンピオンシップを獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

データの整合性:正確な分析のためにExcelで重複を削除します クリーンデータは、効果的な意思決定には非常に重要です。 Excelスプレッドシートの複製エントリは、エラーや信頼できない分析につながる可能性があります。このガイドは、DUPを簡単に削除する方法を示しています

電話インタビューの芸術をマスターする:成功へのあなたのガイド 電話インタビューを成功させると、求人プロセスの次の段階に進む可能性が大幅に増加する可能性があります。 この重要な第一印象は、多くの場合唯一のfacです

導入 ヘルスケア、金融、スポーツなどの分野で自分とあなたの会社のために情報に基づいた決定を下す力を持っていることを想像してください。それが統計学者の役割です。 組織でのデータの使用の増加に伴い、統計学者の需要

人工知能:包括的なガイド テクノロジーにより、マシンが私たちの好みを理解し、私たちのニーズを予測し、過去の相互作用から学び、より良い結果を提供する世界を想像することができました。これはサイエンスフィクションではありません。その

導入 データ分析の世界では、効果的なコミュニケーションが重要です。 Pictogramグラフは強力なソリューションを提供し、視覚的に魅力的で簡単に消化可能な形式で情報を提示します。複雑なチャートや図、絵文字も異なります

Llama 3.1 Storm 8b:効率的な言語モデルのブレークスルー 効率的で正確な言語モデルの追求により、80億パラメーターモデルカテゴリの大幅な進歩であるLlama 3.1 Storm 8Bの開発が発生しました。 これは洗練されています

Git:バージョン制御とコラボレーションへの本質的なガイド GITは、開発者にとって重要なツールであり、プロジェクトのコラボレーションとバージョン制御を簡素化します。 このガイドは、Linux、MacOS、およびWindにGitをインストールするための簡単な手順を提供します

大規模な言語モデル(LLM)は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。 これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

WebStorm Mac版
便利なJavaScript開発ツール
