ホームページ >バックエンド開発 >Python チュートリアル >数値のみの出力で 1 桁を認識できるように Pytesseract を構成するにはどうすればよいですか?

数値のみの出力で 1 桁を認識できるように Pytesseract を構成するにはどうすればよいですか?

Barbara Streisand
Barbara Streisandオリジナル
2024-12-03 13:34:10223ブラウズ

How Can I Configure Pytesseract for Single Digit Recognition with Number-Only Output?

1 桁の認識と数値のみの制約を備えた Pytesseract OCR

Pytesseract のコンテキストで、1 桁を認識し出力を制限するように Tesseract を構成する数字を把握するのは難しい場合があります。この問題に対処するために、Tesseract の構成オプションの詳細を詳しく調べます。

Tesseract ページ セグメンテーション モード

Tesseract は、多様なテキストを処理するためのさまざまなページ セグメンテーション モード (psm) を提供します。レイアウト。単一文字認識の場合、適切な psm は 10 です。このモードは画像を単一文字として扱います。

文字ホワイトリスト

認識される文字を数字に制限するには、次のようにします。 tessedit_char_whitelist 構成パラメータを利用できます。ホワイトリストとして 0123456789 を指定すると、Tesseract はこれらの文字のみを受け入れます。

使用例

複数の構成オプションを使用した image_to_string の使用例を次に示します。

target = pytesseract.image_to_string(image, lang='eng', boxes=False, 
        config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

psm を 10 に設定し、キャラクターを使用することでホワイトリストの場合、この設定により、出力を数値に制限しながら、Tesseract が 1 桁の数字を認識できるようになります。さらに、lang は言語を指定し、box はテキスト ボックスの境界を無効にし、OEM は OCR エンジンを選択します。

以上が数値のみの出力で 1 桁を認識できるように Pytesseract を構成するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。