ホームページ >テクノロジー周辺機器 >AI >ビジョンベースのテキスト認識を使用したシーンテキスト認識
シーンテキスト認識(STR)は、実際の設定でさまざまなテキストの外観があるため、研究者にとって依然として重要な課題です。ドキュメントでテキストを認識することは、たとえばTシャツのテキストを識別することとは異なります。 ECCV 2022で導入されたシーンテキスト認識(MGP-STR)モデルの多粒度予測は、画期的なアプローチを提供します。 MGP-STRは、視覚変圧器(VIT)の堅牢性を革新的な多粒度の言語予測と組み合わせて、複雑なSTRタスクを処理する能力を大幅に改善します。これにより、多様で挑戦的な現実世界のシナリオ全体でより高い精度と使いやすさが得られ、シンプルでありながら強力なソリューションが提供されます。
*この記事は、***データサイエンスブログソンの一部です。
MGP-STRは、個別の言語モデルを必要とせずに優れているビジョンベースのSTRモデルです。多粒度予測(MGP)戦略を使用して、言語情報をアーキテクチャに直接統合します。この暗黙のアプローチにより、MGP-STRは純粋に視覚的なモデルと言語強化方法の両方を上回り、最先端のSTR結果を達成できます。
アーキテクチャは、2つの重要なコンポーネントで構成されています。
シンプルで効果的な戦略を介したキャラクター、サブワード、および単語レベルでの予測の融合により、MGP-STRは視覚的および言語的詳細の両方をキャプチャします。
MGP-STRは、主にテキスト画像のOCRタスク用です。言語知識を暗黙的に組み込む能力は、多様で歪んだテキストを備えた実際のシナリオで特に役立ちます。例は次のとおりです。
このセクションでは、サンプル画像のシーンテキスト認識にMGP-STRを使用する方法を示します。 Pytorch、Transformers Library、および依存関係(PIL、リクエスト)が必要です。
必要なライブラリをインポートします:モデル処理用の変圧器、画像操作のためのPIL、およびオンライン画像を取得するためのリクエスト。
<code>from transformers import MgpstrProcessor, MgpstrForSceneTextRecognition import requests import base64 from io import BytesIO from PIL import Image from IPython.display import display, Image as IPImage</code>
MGP-STRベースモデルとそのプロセッサをフェイストランスの抱きしめからロードします。
<code>processor = MgpstrProcessor.from_pretrained('alibaba-damo/mgp-str-base') model = MgpstrForSceneTextRecognition.from_pretrained('alibaba-damo/mgp-str-base')</code>
画像URLを入力する関数を作成し、MGP-STRを使用して処理し、テキスト予測を返します。これにより、画像変換、base64エンコード、テキストデコードが処理されます。
<code>def predict(url): image = Image.open(requests.get(url, stream=True).raw).convert("RGB") pixel_values = processor(images=image, return_tensors="pt").pixel_values outputs = model(pixel_values) generated_text = processor.batch_decode(outputs.logits)['generated_text'] buffered = BytesIO() image.save(buffered, format="PNG") image_base64 = base64.b64encode(buffered.getvalue()).decode("utf-8") display(IPImage(data=base64.b64decode(image_base64))) print("\n\n") return generated_text</code>
ここでは、画像URLと予測を備えた例は省略されていますが、スペースを節約しますが、元のテキストと同じ構造に従い、 predict
関数を異なる画像URLで呼び出します。
モデルの精度は、画像の例から明らかです。その効率は注目に値し、RAMの使用量が少ないCPUで実行されます。これにより、ドメイン固有のタスクの微調整に簡単に適応できます。
MGP-STRは、ビジョンと言語の理解を効果的に組み合わせています。その革新的な多目的予測は、STRに対する包括的なアプローチを提供し、外部言語モデルなしでの精度と適応性を向上させます。そのシンプルでありながら正確なアーキテクチャは、OCRおよびSTRの研究者と開発者にとって貴重なツールになります。そのオープンソースの性質は、フィールドでのさらなる進歩を促進します。
Q1:MGP-STRとは何ですか?従来のSTRモデルとどのように違いますか? A1: MGP-STRは、言語予測をMGPを使用してビジョンベースのフレームワークに直接統合し、従来の方法で見つかった個別の言語モデルの必要性を排除します。
Q2:MGP-STRのトレーニングに使用されたデータセットは何ですか? A2:ベースモデルは、MJSynthとSynthtextでトレーニングされました。
Q3:MGP-STRは、歪んだテキスト画像または低品質のテキスト画像を処理できますか? A3:はい、その多粒度予測メカニズムにより、このような課題に対処できます。
Q4:MGP-STRは英語以外の言語に適していますか? A4:英語用に最適化されている間、適切なトレーニングデータを備えた他の言語に適合させることができます。
Q5:A³モジュールはMGP-STRのパフォーマンスにどのように貢献しますか? A5: A³モジュールはVIT出力を改良し、サブワードレベルの予測を可能にし、言語情報を埋め込みます。
注:画像プレースホルダーは、元の入力と同じままです。ブラケットリンクを実際のリンクに置き換えることを忘れないでください。
以上がビジョンベースのテキスト認識を使用したシーンテキスト認識の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。