ホームページ  >  記事  >  バックエンド開発  >  PHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?

PHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?

王林
王林オリジナル
2023-07-19 17:12:161671ブラウズ

PHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?

はじめに:
デジタル時代の到来により、ますます多くの文書が PDF 形式で保存されます。一部のシナリオでは、自動文書処理や情報抽出など、さらなる処理や分析のために PDF ファイルからテキストを抽出する必要があります。この記事では、PHP と Alibaba Cloud OCR サービスを使用して、PDF ファイルからテキストをすばやく抽出する方法を紹介します。

ステップ 1: Alibaba Cloud OCR サービスを構成する
まず、Alibaba Cloud に OCR サービスを登録してアクティブ化する必要があります。アクセス キー ID とアクセス キー シークレットを取得し、OCR アプリケーションを作成してアプリケーションの下にキーを生成します。この情報は後続のコードで使用されます。

ステップ 2: PHP-SDK のインストールと構成
Alibaba Cloud では、SDK の PHP バージョンが提供されています。composer を使用すると、SDK をすばやくインストールして構成できます。ターミナルで次のコマンドを実行します:

composer require alibabacloud/ocr-sdk-php

インストールが完了したら、次のコードをプロジェクトに追加し、SDK を導入し、アクセス キー ID とアクセス キー シークレットを構成します:

<?php
use AlibabaCloudClientAlibabaCloud;
use AlibabaCloudClientExceptionClientException;
use AlibabaCloudClientExceptionServerException;

AlibabaCloud::accessKeyClient('your-access-key-id', 'your-access-key-secret')
            ->regionId('cn-shanghai')
            ->asDefaultClient();
?>

上記のコードを「」に配置します。「your-access-key-id」と「your-access-key-secret」を実際の情報に置き換えます。

ステップ 3: OCR サービスを使用して PDF テキストを抽出する
PHP スクリプトでは、Alibaba Cloud OCR が提供する「ocr_document_recognize」インターフェイスを使用して PDF ファイルを識別し、その中のテキストを取得できます。

以下はサンプル コードです:

try {
    $result = AlibabaCloud::rpc()
              ->product('ocr')
              ->scheme('https')
              ->version('2019-12-30')
              ->action('ocr_document_recognize')
              ->method('POST')
              ->host('ocr.cn-shanghai.aliyuncs.com')
              ->options([
                'query' => [
                  'RegionId' => 'cn-shanghai',
                  'AccessKeyId' => 'your-access-key-id',
                  'AccessKeySecret' => 'your-access-key-secret',
                ],
              ])
              ->request();
    
    // 解析返回结果
    $text = '';
    foreach ($result['Data']['Regions'] as $region) {
        foreach ($region['Lines'] as $line) {
            $text .= $line['Text'] . "
";
        }
    }
    
    // 打印提取的文字
    echo $text;

} catch (ClientException $e) {
    echo $e->getErrorMessage() . PHP_EOL;
} catch (ServerException $e) {
    echo $e->getErrorMessage() . PHP_EOL;
}

上記のコードの「your-access-key-id」と「your-access-key-secret」を実際の情報に置き換えます。

上記の手順により、PHP と Alibaba Cloud OCR サービスを使用して PDF ファイルからテキストを迅速に抽出できます。実際のニーズに応じて、抽出されたテキストをさらに処理および分析できます。

概要:
この記事では、PHP と Alibaba Cloud OCR サービスを使用して PDF ファイルからテキストを迅速に抽出する方法を紹介します。 Alibaba Cloud OCR サービスを設定し、PHP-SDK をインストールすると、Alibaba Cloud OCR が提供するインターフェイスを使用して PDF ファイルを識別し、そのファイル内のテキスト情報を抽出できます。これにより、自動化された文書処理や情報抽出作業を簡単に実行でき、業務効率が向上します。

以上がPHP と Alibaba Cloud OCR を使用して PDF ファイルからテキストをすばやく抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。