Rumah >pembangunan bahagian belakang >tutorial php >Menggunakan PHP dan Tesseract untuk melaksanakan fungsi pengecaman teks imej OCR
Dengan perkembangan pesat kecerdasan buatan dan teknologi penglihatan komputer, OCR (Optical Character Recognition), sistem pengecaman aksara optik, telah menjadi semakin matang dan telah menjadi fungsi yang diperlukan dalam banyak senario aplikasi. Sistem OCR boleh mengecam teks dalam imej supaya maklumat dalam imej boleh diproses secara digital dan dianalisis secara bijak. Artikel ini akan memperkenalkan cara menggunakan PHP dan Tesseract untuk melaksanakan fungsi pengecaman teks imej OCR.
1. Pengenalan kepada Tesseract
Tesseract ialah enjin OCR sumber terbuka yang dibangunkan oleh HP Labs dan disumbangkan kepada komuniti sumber terbuka. Ia menyokong berbilang bahasa, mempunyai pengiktirafan yang tinggi dan ketepatan yang tinggi. Versi terkini Tesseract ialah 4.1.1.
2. Konfigurasikan persekitaran dan pasang Tesseract
Mula-mula anda perlu memasang PHP secara setempat atau pada pelayan. Jika persekitaran XAMPP atau WAMP sudah dipasang pada mesin ini, anda boleh terus menggunakan php yang disertakan dengan xampp atau wamp Jika tidak, anda perlu memasangnya secara manual.
Muat turun Tesseract dari laman web rasmi https://github.com/tesseract-ocr/tesseract Pilih muat turun mengikut sistem pengendalian yang anda gunakan. Pasang selepas muat turun selesai. Jika anda perlu menggunakan bahasa Cina, anda juga perlu memuat turun pek bahasa yang sepadan.
Laksanakan tesseract --versi dalam tetingkap baris arahan untuk mengesahkan sama ada Tesseract berjaya dipasang.
3. Gunakan PHP dan Tesseract untuk melaksanakan fungsi pengecaman teks imej OCR
Pertama, anda perlu memasang PHP dan memasang Tesseract.
2. Lulus dalam laluan imej dan laksanakan pengecaman arahan
Gunakan fungsi exec (atau shell_exec() atau system()) untuk melaksanakan arahan untuk mengecam teks dalam imej. Parameter yang diluluskan adalah parameter arahan yang diperlukan oleh Tesseract, di mana "chi_sim" ialah bahasa yang akan diiktiraf dan boleh diubah suai mengikut keperluan.
$command = "tesseract " $image_path ." " .$output_path." -l chi_sim"; ) fungsi memperoleh hasil pengiktirafan akhir dan mengembalikannya.
if (file_exists($output_path.'.txt')) {
$content = file_get_contents($output_path.'.txt'); //返回识别结果 return $content;
Berikut ialah contoh mudah untuk menguji sama ada fungsi pengecaman teks imej OCR berfungsi dengan betul.
(1) Mula-mula anda perlu menyediakan gambar, di sini kami menggunakan gambar yang mengandungi teks bahasa Cina.
(2) Lulus laluan imej untuk dikenali dan laluan hasil output ke dalam fungsi Kod adalah seperti berikut:
function ocr($image_path, $output_path) {
$command = "tesseract ". $image_path ." " .$output_path." -l chi_sim"; //执行命令 exec($command); if (file_exists($output_path.'.txt')) { $content = file_get_contents($output_path.'.txt'); //返回识别结果 return $content; }
}
(3) Panggil. fungsi dan keluarkan hasilnya, Kodnya adalah seperti berikut:
$image_path = './test.jpg';
$output_path = './test'; echo $result;(4) Jalankan program Jika semuanya berjalan lancar, keputusan berikut akan dikeluarkan: "Ini adalah gambar ujian yang mengandungi teks bahasa Cina 5. Ringkasan
Melalui pengenalan ini." artikel, pembaca boleh memahami cara menggunakan PHP dan Tesseract untuk melaksanakan fungsi pengecaman teks Imej OCR. Untuk sesetengah senario aplikasi yang memerlukan pengecaman teks imej, pengekstrakan teks yang cepat dan tepat boleh dicapai, meningkatkan kecekapan dan ketepatan kerja. Sudah tentu, dalam senario aplikasi yang berbeza, kita perlu mengubah suai dan mengoptimumkan kod mengikut keperluan sebenar untuk benar-benar mencapai hasil yang lebih baik.
Atas ialah kandungan terperinci Menggunakan PHP dan Tesseract untuk melaksanakan fungsi pengecaman teks imej OCR. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!