ホームページ  >  記事  >  バックエンド開発  >  1 桁認識で \'0\' と \'O\' を区別できるように Pytesseract を構成するにはどうすればよいですか?

1 桁認識で \'0\' と \'O\' を区別できるように Pytesseract を構成するにはどうすればよいですか?

Linda Hamilton
Linda Hamiltonオリジナル
2024-11-26 06:20:09726ブラウズ

How Can I Configure Pytesseract to Distinguish Between

Pytesseract OCR マルチ構成構成

光学式文字認識 (OCR) に Pytesseract を利用する場合、その設定を最適化して機能を向上させることが重要です。特定のシナリオの精度。この記事では、OCR が 1 桁の数字と文字 'O' を区別するのが難しいという特定の問題について説明します。

問題:

Pytesseract は数字を区別できない1 桁の場合は「-psm 7」で構成されている場合、ゼロと文字「O」

解決策:

この課題に対処するために、Tesseract 4.0.0a は 2 つの主要な構成オプションを提供します:

  • psm (ページ分割モード): Tesseract が画像を領域に分割する方法を指定しますテキストの。単一文字認識の場合、psm は 10 に設定する必要があります。
  • tessedit_char_whitelist: Tesseract が指定された文字のみを認識するように制限します。この場合、ホワイトリストは「0123456789」などの数字のみに制限する必要があります。

サンプル コード:

次のコードは、使用方法を示しています。これらの構成オプションを組み合わせる:

import pytesseract
from PIL import Image

# Load the image
im = Image.open('digits_image.png')

# Multiple configuration options
target = pytesseract.image_to_string(im, config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

この構成では、 Pytesseract は、1 桁の数字を「O」と間違える可能性を排除しながら、正確に認識できます。

以上が1 桁認識で \'0\' と \'O\' を区別できるように Pytesseract を構成するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。