ホームページ >テクノロジー周辺機器 >AI >ビジョンベースのテキスト認識を使用したシーンテキスト認識

ビジョンベースのテキスト認識を使用したシーンテキスト認識

Lisa Kudrow
Lisa Kudrowオリジナル
2025-03-14 09:45:09423ブラウズ

シーンテキスト認識(STR)は、実際の設定でさまざまなテキストの外観があるため、研究者にとって依然として重要な課題です。ドキュメントでテキストを認識することは、たとえばTシャツのテキストを識別することとは異なります。 ECCV 2022で導入されたシーンテキスト認識(MGP-STR)モデルの多粒度予測は、画期的なアプローチを提供します。 MGP-STRは、視覚変圧器(VIT)の堅牢性を革新的な多粒度の言語予測と組み合わせて、複雑なSTRタスクを処理する能力を大幅に改善します。これにより、多様で挑戦的な現実世界のシナリオ全体でより高い精度と使いやすさが得られ、シンプルでありながら強力なソリューションが提供されます。

重要な学習ポイント

  • Vision Transformers(VIT)を含むMGP-STRのアーキテクチャとコンポーネントを把握します。
  • マルチガニュラリティ予測により、シーンテキスト認識の精度と適応性がどのように向上するかを理解してください。
  • 実際の光学文字認識(OCR)タスクにおけるMGP-STRの実用的なアプリケーションを調べてください。
  • シーンテキスト認識のためにPytorchを使用してMGP-STRを実装および使用する実用的な経験を獲得します。

*この記事は、***データサイエンスブログソンの一部です。

目次

  • MGP-STRとは何ですか?
  • MGP-STRのアプリケーションとユースケース
  • MGP-STRを開始します
    • ステップ1:依存関係のインポート
    • ステップ2:ベースモデルのロード
    • ステップ3:画像からのテキスト予測のヘルパー関数
  • 結論
  • よくある質問

MGP-STRとは何ですか?

MGP-STRは、個別の言語モデルを必要とせずに優れているビジョンベースのSTRモデルです。多粒度予測(MGP)戦略を使用して、言語情報をアーキテクチャに直接統合します。この暗黙のアプローチにより、MGP-STRは純粋に視覚的なモデルと言語強化方法の両方を上回り、最先端のSTR結果を達成できます。

アーキテクチャは、2つの重要なコンポーネントで構成されています。

  • ビジョントランス(VIT)
  • A³モジュール

シンプルで効果的な戦略を介したキャラクター、サブワード、および単語レベルでの予測の融合により、MGP-STRは視覚的および言語的詳細の両方をキャプチャします。

ビジョンベースのテキスト認識を使用したシーンテキスト認識

MGP-STRのアプリケーションとユースケース

MGP-STRは、主にテキスト画像のOCRタスク用です。言語知識を暗黙的に組み込む能力は、多様で歪んだテキストを備えた実際のシナリオで特に役立ちます。例は次のとおりです。

  • 自然なシーン(ストリートサイン、ビルボード)からテキストを読む。
  • スキャンされたフォームとドキュメントからテキストを抽出します(手書きまたは印刷)。
  • 産業用設定のテキストの分析(製品ラベル、バーコード)。
  • 拡張現実(AR)アプリケーションにおけるテキスト翻訳/転写。
  • スキャンされたドキュメントまたは印刷物の写真からの情報抽出。
  • アクセシビリティソリューションの支援(スクリーンリーダー)。

ビジョンベースのテキスト認識を使用したシーンテキスト認識

主な機能と利点

  • 独立した言語モデルは必要ありません
  • 多粒度予測
  • 最先端のパフォーマンス
  • 使いやすい

MGP-STRを開始します

このセクションでは、サンプル画像のシーンテキスト認識にMGP-STRを使用する方法を示します。 Pytorch、Transformers Library、および依存関係(PIL、リクエスト)が必要です。

ステップ1:必要なライブラリのインポート

必要なライブラリをインポートします:モデル処理用の変圧器、画像操作のためのPIL、およびオンライン画像を取得するためのリクエスト。

 <code>from transformers import MgpstrProcessor, MgpstrForSceneTextRecognition import requests import base64 from io import BytesIO from PIL import Image from IPython.display import display, Image as IPImage</code>

ステップ2:事前に訓練されたモデルのロード

MGP-STRベースモデルとそのプロセッサをフェイストランスの抱きしめからロードします。

 <code>processor = MgpstrProcessor.from_pretrained('alibaba-damo/mgp-str-base') model = MgpstrForSceneTextRecognition.from_pretrained('alibaba-damo/mgp-str-base')</code>

ステップ3:画像処理とテキストの予測関数

画像URLを入力する関数を作成し、MGP-STRを使用して処理し、テキスト予測を返します。これにより、画像変換、base64エンコード、テキストデコードが処理されます。

 <code>def predict(url): image = Image.open(requests.get(url, stream=True).raw).convert("RGB") pixel_values = processor(images=image, return_tensors="pt").pixel_values outputs = model(pixel_values) generated_text = processor.batch_decode(outputs.logits)['generated_text'] buffered = BytesIO() image.save(buffered, format="PNG") image_base64 = base64.b64encode(buffered.getvalue()).decode("utf-8") display(IPImage(data=base64.b64decode(image_base64))) print("\n\n") return generated_text</code>

例(元のテキストからの画像URLを使用):

ここでは、画像URLと予測を備えた例は省略されていますが、スペースを節約しますが、元のテキストと同じ構造に従い、 predict関数を異なる画像URLで呼び出します。

モデルの精度は、画像の例から明らかです。その効率は注目に値し、RAMの使用量が少ないCPUで実行されます。これにより、ドメイン固有のタスクの微調整に簡単に適応できます。

ビジョンベースのテキスト認識を使用したシーンテキスト認識

結論

MGP-STRは、ビジョンと言語の理解を効果的に組み合わせています。その革新的な多目的予測は、STRに対する包括的なアプローチを提供し、外部言語モデルなしでの精度と適応性を向上させます。そのシンプルでありながら正確なアーキテクチャは、OCRおよびSTRの研究者と開発者にとって貴重なツールになります。そのオープンソースの性質は、フィールドでのさらなる進歩を促進します。

リソース

  • Google Collab:[link](実際のリンクに置き換えます)
  • arxiv:[link](実際のリンクに置き換えます)
  • github:[link](実際のリンクと交換)
  • Huggingface:[link](実際のリンクと交換)

キーポイント

  • MGP-STRは、個別の言語モデルなしでビジョンと言語を統合します。
  • 多粒度予測は、多様な課題にわたってそのパフォーマンスを向上させます。
  • MGP-STRは、シンプルなアーキテクチャで最新の結果を達成します。
  • さまざまなOCRタスクに簡単に適応できます。

よくある質問

  • Q1:MGP-STRとは何ですか?従来のSTRモデルとどのように違いますか? A1: MGP-STRは、言語予測をMGPを使用してビジョンベースのフレームワークに直接統合し、従来の方法で見つかった個別の言語モデルの必要性を排除します。

  • Q2:MGP-STRのトレーニングに使用されたデータセットは何ですか? A2:ベースモデルは、MJSynthとSynthtextでトレーニングされました。

  • Q3:MGP-STRは、歪んだテキスト画像または低品質のテキスト画像を処理できますか? A3:はい、その多粒度予測メカニズムにより、このような課題に対処できます。

  • Q4:MGP-STRは英語以外の言語に適していますか? A4:英語用に最適化されている間、適切なトレーニングデータを備えた他の言語に適合させることができます。

  • Q5:A³モジュールはMGP-STRのパフォーマンスにどのように貢献しますか? A5: A³モジュールはVIT出力を改良し、サブワードレベルの予測を可能にし、言語情報を埋め込みます。

注:画像プレースホルダーは、元の入力と同じままです。ブラケットリンクを実際のリンクに置き換えることを忘れないでください。

以上がビジョンベースのテキスト認識を使用したシーンテキスト認識の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。