>백엔드 개발 >PHP 튜토리얼 >PHP의 OCR 인식 기술 가이드

PHP의 OCR 인식 기술 가이드

王林
王林원래의
2023-05-20 23:12:041904검색

디지털 시대가 도래하면서 많은 기업과 개인은 종이 문서를 디지털화해야 합니다. OCR(Optical Character Recognition, 광학 문자 인식) 인식 기술은 이러한 문제를 해결하는 효과적인 방법 중 하나입니다. 널리 사용되는 서버측 언어인 PHP는 OCR 인식을 위한 일부 라이브러리와 도구도 제공합니다. 이 기사에서는 가장 적합한 솔루션을 선택하기 위해 PHP의 여러 OCR 인식 기술을 소개합니다.

1. tesseract-ocr

tesseract-ocr은 C++로 작성된 인기 있는 오픈 소스 OCR 엔진 라이브러리입니다. PHP는 tesseract-ocr과의 통합을 제공합니다. PDF, JPEG, GIF, PNG 및 기타 형식의 이미지는 php-ext-tesseract를 통해 인식할 수 있습니다. tesseract-ocr의 가장 큰 특징은 다국어용으로 설계되어 전 세계 대부분의 언어로 된 텍스트를 인식할 수 있다는 점입니다.

사용 방법:

<?php
    require_once __DIR__.'/vendor/autoload.php';
    use thiagoalessioTesseractOCRTesseractOCR;

    $result = (new TesseractOCR('example.png'))
                    ->run();
    echo $result;
?>

2. OCRopus

OCRopus는 OCR 도구 및 라이브러리 세트이자 Python 기반의 인기 있는 OCR 엔진입니다. OCRopus는 PHP 바인딩 작업을 사용할 수 있습니다. 텍스트 인식을 지원할 뿐만 아니라 문서 분류, 분할, 조판 등 포괄적인 OCR 처리 작업도 수행합니다.

사용 방법:

<?php
    $image = new Imagick();
    $image->readImage('example.png');
    $image->setImageFormat('tif');
    $image->thresholdImage(127); //图像二值化
    $data = $image->getImagesBlob();
    $ocr = new     esseractOCR($data);
    echo $ocr->run();
?>

3. Google Cloud Vision OCR

Google Cloud Vision API는 OCR 서비스를 통합하는 머신 비전 도구 세트입니다. 이 API는 컴퓨터 비전 기능과 이미지 인식을 제공합니다. Google Cloud Vision OCR은 이미지의 텍스트와 문자를 식별하는 데 도움이 됩니다. 해당 서비스를 이용하려면 Google 계정을 등록하고 API 키를 받아야 하며, 이용 횟수에 따라 요금이 부과됩니다.

사용 방법:

<?php
    require_once __DIR__ . '/vendor/autoload.php';
    use GoogleCloudVisionV1ImageAnnotatorClient;

    $imageAnnotator = new ImageAnnotatorClient();

    try {
        # 图像文件的本地路径或者 URL 地址,即待识别的图像文件路径
        $image = file_get_contents('https://example.com/image.jpg');
        # 构建图像标注请求
        $response = $imageAnnotator->documentTextDetection($image);
        # 输出结果
        foreach ($response->getTextAnnotations() as $text) {
            printf('%s' . PHP_EOL, $text->getDescription());
        }
    } catch (Exception $exception) {
        echo $exception->getMessage();
    }
?>

위는 PHP에서 널리 사용되는 세 가지 OCR 기술입니다. 물론 OCR 이미지 인식을 위해 다른 라이브러리나 API를 사용할 수도 있습니다. 이러한 각 기술에는 장점과 단점이 있으므로 특정 요구 사항에 따라 선택해야 합니다. 어떤 방법을 선택하든 종이 문서를 빠르고 정확하게 디지털화하고 업무 효율성을 향상하며 비용을 절감하고 기업과 개인에게 실질적인 가치를 제공하는 데 도움이 될 수 있습니다.

위 내용은 PHP의 OCR 인식 기술 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.