首頁  >  文章  >  後端開發  >  如何利用PHP和阿里雲OCR快速擷取PDF檔案中的文字?

如何利用PHP和阿里雲OCR快速擷取PDF檔案中的文字?

王林
王林原創
2023-07-19 17:12:161726瀏覽

如何利用PHP和阿里雲OCR快速擷取PDF檔案中的文字?

導言:
隨著數位時代的來臨,越來越多的文件以PDF格式儲存。在某些場景下,我們需要從PDF文件中提取文字進行進一步的處理和分析,例如自動化文件處理、資訊提取等。本文將介紹如何使用PHP和阿里雲OCR服務快速擷取PDF檔案中的文字。

步驟一:設定阿里雲OCR服務
首先,我們需要在阿里雲上註冊並開通OCR服務。獲得Access Key ID和Access Key Secret,並建立一個OCR應用,在該應用程式下產生一個金鑰。這些資訊將在後續的代碼中使用。

步驟二:安裝和設定PHP-SDK
阿里雲提供了PHP版本的SDK,我們可以使用composer快速安裝並設定SDK。在終端機中執行以下命令:

composer require alibabacloud/ocr-sdk-php

安裝完成後,在專案中新增如下程式碼,引入SDK,並配置Access Key ID和Access Key Secret:

<?php
use AlibabaCloudClientAlibabaCloud;
use AlibabaCloudClientExceptionClientException;
use AlibabaCloudClientExceptionServerException;

AlibabaCloud::accessKeyClient('your-access-key-id', 'your-access-key-secret')
            ->regionId('cn-shanghai')
            ->asDefaultClient();
?>

將上述程式碼中" your-access-key-id"和"your-access-key-secret"替換為您的實際訊息。

步驟三:使用OCR服務提取PDF文字
在PHP腳本中,我們可以使用阿里雲OCR提供的"ocr_document_recognize"介面來識別PDF文件,並取得其中的文字。

以下是範例程式碼:

try {
    $result = AlibabaCloud::rpc()
              ->product('ocr')
              ->scheme('https')
              ->version('2019-12-30')
              ->action('ocr_document_recognize')
              ->method('POST')
              ->host('ocr.cn-shanghai.aliyuncs.com')
              ->options([
                'query' => [
                  'RegionId' => 'cn-shanghai',
                  'AccessKeyId' => 'your-access-key-id',
                  'AccessKeySecret' => 'your-access-key-secret',
                ],
              ])
              ->request();
    
    // 解析返回结果
    $text = '';
    foreach ($result['Data']['Regions'] as $region) {
        foreach ($region['Lines'] as $line) {
            $text .= $line['Text'] . "
";
        }
    }
    
    // 打印提取的文字
    echo $text;

} catch (ClientException $e) {
    echo $e->getErrorMessage() . PHP_EOL;
} catch (ServerException $e) {
    echo $e->getErrorMessage() . PHP_EOL;
}

將上述程式碼中"your-access-key-id"和"your-access-key-secret"替換為您的實際資訊。

透過以上步驟,我們就可以使用PHP和阿里雲OCR服務快速擷取PDF檔案中的文字了。您可以根據實際需求,對提取的文字進行進一步的處理和分析。

總結:
本文介紹如何使用PHP和阿里雲OCR服務快速擷取PDF檔案中的文字。透過配置阿里雲OCR服務和安裝PHP-SDK,我們可以使用阿里雲OCR提供的介面來識別PDF文件,並提取其中的文字資訊。透過這種方式,我們可以方便地進行自動化文件處理和資訊擷取等操作,提高工作效率。

以上是如何利用PHP和阿里雲OCR快速擷取PDF檔案中的文字?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn