1 桁のみを認識するように Pytesseract を構成するにはどうすればよいですか?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

1 桁のみを認識するように Pytesseract を構成するにはどうすればよいですか?

Susan Sarandon

Dec 01, 2024 am 10:33 AM

How Can I Configure Pytesseract to Recognize Only Single Digits?

Pytesseract OCR の複数の構成オプション

Pytesseract は、画像からテキストを抽出するために広く使用されている強力な OCR ツールです。ただし、特定の文字セットを認識するというタスクを実行する場合、問題が発生する可能性があります。これらの制限を克服するために、ユーザーはカスタムパラメーターを使用して Tesseract を構成することに頼ることがよくあります。

一般的なシナリオの 1 つは、他の文字を除外しながら 1 桁を受け入れるように Tesseract を構成することです。これは、場合によっては同一に見える数字のゼロと文字「O」を区別するときに重要になります。これを実現するために、Tesseract は、それに応じて調整できる複数の構成オプションを提供します。

psm および tessedit_char_whitelist パラメータの使用

Tesseract 4.0.0a のリリースにより、ユーザーはアクセスできるようになります。より広範囲のページセグメンテーションモード (psm 値) に対応します。単一文字の認識が主な目的であるシナリオでは、psm を 10 に設定することが効果的であることがわかります。このパラメータは、Tesseract に画像を単一の文字として扱うように指示します。

さらに、Tesseract の認識を数値のみに制限するには、ユーザーは tessedit_char_whitelist パラメータを利用できます。 0123456789 などの文字ホワイトリストを指定すると、Tesseract はそのホワイトリスト内の文字を排他的に認識します。

使用例

次のコードは、psm と tessedit_char_whitelist を組み合わせる方法を示しています。実際のパラメータ設定:

import pytesseract

target = pytesseract.image_to_string(image, lang='eng', boxes=False, \
        config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

この例では、image 変数は処理される入力画像を表し、lang='eng' はテキストが英語であることを指定します。 box=False を設定すると、関数は認識された文字の境界ボックスを出力しません。

--psm 10 パラメーターは単一文字認識が確実に利用されるようにし、--oem 3 パラメーターはデフォルトの OCR エンジンを選択します。最後に、-c tessedit_char_whitelist=0123456789 パラメーターは、認識を数字のみに制限します。

これらの複数の構成オプションを理解して活用することで、ユーザーは特定の OCR ニーズに合わせて Pytesseract の動作を効果的に調整でき、正確かつ正確なテキスト抽出が可能になります。

以上が1 桁のみを認識するように Pytesseract を構成するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの融合リスト：適切な方法を選択しますMay 14, 2025 am 12:11 AM

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages：1）operatorissimplebutlessforlargelist;

Python 3の2つのリストを連結する方法は？May 14, 2025 am 12:09 AM

Python 3では、2つのリストをさまざまな方法で接続できます。1）小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2）メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3）元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4）Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Python Concatenateリスト文字列May 14, 2025 am 12:08 AM

Join（）メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1）join（）メソッドを使用して、効率的で読みやすくなります。 2）サイクルは、大きなリストに演算子を非効率的に使用します。 3）リスト理解とJoin（）の組み合わせは、変換が必要なシナリオに適しています。 4）redoce（）メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

Pythonの実行、それは何ですか？May 14, 2025 am 12:06 AM

pythonexexecutionistheprocessoftransforningpythoncodeintoexecutabletructions.1）interpreterreadSthecode、変換intobytecode、thepythonvirtualmachine（pvm）executes.2）theglobalinterpreeterlock（gil）管理委員会、

Python：重要な機能は何ですかMay 14, 2025 am 12:02 AM

Pythonの主な機能には次のものがあります。1。構文は簡潔で理解しやすく、初心者に適しています。 2。動的タイプシステム、開発速度の向上。 3。複数のタスクをサポートするリッチ標準ライブラリ。 4.強力なコミュニティとエコシステム、広範なサポートを提供する。 5。スクリプトと迅速なプロトタイピングに適した解釈。 6.さまざまなプログラミングスタイルに適したマルチパラダイムサポート。

Python：コンパイラまたはインタープリター？May 13, 2025 am 12:10 AM

Pythonは解釈された言語ですが、コンパイルプロセスも含まれています。 1）Pythonコードは最初にBytecodeにコンパイルされます。 2）ByteCodeは、Python Virtual Machineによって解釈および実行されます。 3）このハイブリッドメカニズムにより、Pythonは柔軟で効率的になりますが、完全にコンパイルされた言語ほど高速ではありません。

ループvs whileループ用のpython：いつ使用するか？May 13, 2025 am 12:07 AM

useaforloopwhenteratingoverasequenceor foraspificnumberoftimes; useawhileloopwhentinuninguntinuntilaConditionismet.forloopsareidealforknownownownownownownoptinuptinuptinuptinuptinutionsituations whileoopsuitsituations withinterminedationations。

Pythonループ：最も一般的なエラーMay 13, 2025 am 12:07 AM

pythonloopscanleadtoErrorslikeinfiniteloops、ModifiningListsDuringiteration、Off-Oneerrors、Zero-dexingissues、およびNestededLoopinefficiencies.toavoidhese：1）use'i

See all articles