Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Saya Boleh Mengkonfigurasi Pytesseract untuk Pengecaman Digit Tunggal dengan Output Nombor Sahaja?

Bagaimanakah Saya Boleh Mengkonfigurasi Pytesseract untuk Pengecaman Digit Tunggal dengan Output Nombor Sahaja?

Barbara Streisand
Barbara Streisandasal
2024-12-03 13:34:10278semak imbas

How Can I Configure Pytesseract for Single Digit Recognition with Number-Only Output?

Pytesseract OCR dengan Pengecaman Digit Tunggal dan Kekangan Nombor Sahaja

Dalam konteks Pytesseract, mengkonfigurasi Tesseract untuk mengecam satu digit dan mengehadkan output kepada nombor boleh mencabar. Untuk menangani isu ini, kami menyelidiki secara spesifik pilihan konfigurasi Tesseract.

Mod Segmentasi Halaman Tesseract

Tesseract menawarkan pelbagai mod pembahagian halaman (psm) untuk mengendalikan teks yang pelbagai susun atur. Untuk pengecaman aksara tunggal, psm yang sesuai ialah 10. Mod ini menganggap imej sebagai aksara tunggal.

Senarai Putih Aksara

Untuk mengehadkan aksara yang dikenali kepada nombor, kami boleh memanfaatkan parameter konfigurasi tessedit_char_whitelist. Dengan menyatakan 0123456789 sebagai senarai putih, Tesseract hanya akan menerima aksara ini.

Penggunaan Contoh

Berikut ialah contoh penggunaan image_to_string dengan berbilang pilihan konfigurasi:

target = pytesseract.image_to_string(image, lang='eng', boxes=False, 
        config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')

Dengan menetapkan psm kepada 10 dan menggunakan senarai putih aksara, konfigurasi ini memastikan bahawa Tesseract akan mengenali satu digit sambil mengehadkan output kepada nilai berangka. Selain itu, lang menentukan bahasa, kotak melumpuhkan sempadan kotak teks dan oem memilih enjin OCR.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengkonfigurasi Pytesseract untuk Pengecaman Digit Tunggal dengan Output Nombor Sahaja?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn