Rumah >pembangunan bahagian belakang >tutorial php >Bagaimana untuk menggunakan PHP untuk pengecaman OCR dan pengecaman teks?

Bagaimana untuk menggunakan PHP untuk pengecaman OCR dan pengecaman teks?

王林
王林asal
2023-05-21 08:18:402205semak imbas

Dengan perkembangan berterusan era digital, sejumlah besar dokumen kertas perlu didigitalkan untuk memudahkan penyimpanan dan mendapatkan semula. Untuk menukar data dengan berkesan, banyak syarikat dan individu memilih teknologi OCR (Pengecaman Aksara Optik, pengecaman aksara optik), yang boleh menukar teks dalam dokumen kertas yang diimbas ke dalam format digital.

Sebagai bahasa pengaturcaraan yang biasa digunakan, PHP juga boleh digunakan untuk pengecaman OCR dan pengecaman teks. Dalam artikel ini, saya akan memperkenalkan cara menggunakan PHP untuk pengecaman OCR dan pengecaman teks.

1. Pengecaman OCR PHP

Untuk melaksanakan pengecaman OCR dalam PHP, kami boleh menggunakan beberapa pustaka pengecaman OCR untuk mencapainya. Pada masa ini yang lebih biasa digunakan termasuk: Tesseract OCR, OCRopus, dsb.

Tesseract OCR ialah salah satu enjin OCR (Optical Character Recognition, optical character recognition) percuma yang paling terkenal. Ia dibangunkan oleh HP Labs dan kini diselenggara oleh Google. Tesseract tersedia untuk berbilang platform (seperti Windows, Mac OS dan Linux) dan berbilang bahasa pengaturcaraan (seperti C++, Python dan Java).

Berikut ialah contoh PHP mudah menggunakan Tesseract OCR untuk mengecam imej:

  1. Pasang enjin Tesseract OCR dan pakej PHP Tesseract OCR

// Pasang pakej Tesseract OCR Engine dan PHP Tesseract OCR
apt-get install tesseract-ocr
komposer memerlukan thiagoalessio/tesseract_ocr

  1. Muat imej

// Muatkan imej
$image = new Imagick('path/to/image');

  1. Kecam teks dalam imej

//Kecam teks dalam imej
$ tesseract = new TesseractOCR();
$tesseract->image($image);
$text = $tesseract->run();

echo $text;// Output Teks pengecaman

2. Pengecaman teks PHP

Untuk melaksanakan pengecaman teks dalam PHP, kita boleh menggunakan beberapa perpustakaan pengecaman teks untuk mencapainya. Pada masa ini, yang lebih biasa digunakan termasuk: IDA S.E. OCR, Nanonets OCR, dll.

Memandangkan pakej berbeza mempunyai kaedah pemasangan dan kaedah penggunaan yang berbeza, mengambil Nanonets OCR sebagai contoh, berikut ialah contoh PHP mudah menggunakan Nanonets OCR untuk mengecam teks dalam imej:

  1. Daftar Akaun, dapatkan Kunci API dan ID Model

// Daftar akaun, dapatkan Kunci API dan ID Model
https://app.nanonets.com/user/register

  1. Pasang PHP SDK

//Pasang PHP SDK
komposer memerlukan nanonets/nanonets-ocr-php

  1. Dapatkan hasil pengiktirafan daripada Nanonets OCR

// Dapatkan hasil pengiktirafan daripada Nanonets OCR
b80a2bc19c2cd909c8ef5c4238ad6728upload('path / to/image');
echo $result;

  1. Hasil analisis

//Hasil analisis
$json = json_decode($result, true);

$text = '';
foreach ($json['result'][0]['prediction'] sebagai $line) {

$text .= $line['ocr_text'] . "

";
}

echo $text;

Ringkasan

Melalui dua contoh di atas, kita dapat melihat bahawa menggunakan PHP untuk pengecaman OCR dan pengecaman teks adalah Sangat mudah. ​​Hanya pasang pustaka yang sepadan (seperti Tesseract OCREngine, OCRopus, Nanonets OCR, dll.), muatkan imej atau muat naik imej, dan kemudian menghuraikan hasil teknologi OCR dan teknologi pengecaman teks boleh membantu kami mendigitalkan bilangan dokumen kertas , meningkatkan kecekapan pengurusan Tetapi perlu diperhatikan bahawa dalam aplikasi praktikal, kita perlu memilih perpustakaan OCR yang sesuai untuk projek kita dan melaksanakannya mengikut keperluan sebenar.

Atas ialah kandungan terperinci Bagaimana untuk menggunakan PHP untuk pengecaman OCR dan pengecaman teks?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn