ホームページ  >  記事  >  バックエンド開発  >  PHP と Alibaba Cloud OCR を使用して表のテキストを抽出するにはどうすればよいですか?

PHP と Alibaba Cloud OCR を使用して表のテキストを抽出するにはどうすればよいですか?

WBOY
WBOYオリジナル
2023-07-18 17:18:191020ブラウズ

PHP と Alibaba Cloud OCR を使用して表のテキストを抽出するにはどうすればよいですか?

Alibaba Cloud OCR (光学式文字認識) は、写真やスキャンした文書からテキスト情報を抽出するために使用できる強力なテキスト認識テクノロジです。一般的なサーバーサイドスクリプト言語として、PHP は Alibaba Cloud OCR API と対話して、テーブルテキスト抽出関数を実装できます。この記事では、PHP と Alibaba Cloud OCR を使用してこの機能を実装する方法とコード例を詳しく紹介します。

  1. Alibaba Cloud OCR API の設定

まず、Alibaba Cloud 公式 Web サイトでアカウントを登録し、OCR サービスを有効にする必要があります。次に、Alibaba Cloud コンソールにログインし、OCR サービス ページでアクセス キー ID とアクセス キー シークレットを取得します。この情報は後続の API リクエストに使用されます。

  1. PHP SDK のインストール

Alibaba Cloud は、Composer を通じてインストールできる PHP SDK を公式に提供しています。コマンドラインで次のコマンドを実行します。

composer require alibabacloud/sdk
  1. PHP ファイルの作成

「extract_table.php」という名前の PHP ファイルを作成し、最初に Alibaba Cloud を導入します。ファイル OCR SDK:

require 'vendor/autoload.php';
use AlibabaCloudClientAlibabaCloud;
use AlibabaCloudClientExceptionClientException;
use AlibabaCloudClientExceptionServerException;
  1. Alibaba Cloud OCR API に接続

次のコードをファイルに追加して、Alibaba Cloud OCR API に接続し、認証します:

AlibabaCloud::accessKeyClient('your_access_key_id', 'your_access_key_secret')
    ->regionId('your_region_id') // 例如:cn-shanghai
    ->asDefaultClient();

「your_access_key_id」と「your_access_key_secret」を、Alibaba Cloud コンソールから取得したアクセス キー ID とアクセス キー シークレットに置き換えてください。同時に、「your_region_id」をお住まいの地域のリージョン ID (例: cn-shanghai) に置き換えてください。

  1. テキスト抽出操作の実行

次のコードをファイルに追加して、テーブル テキスト抽出関数を実装します:

try {
    $response = AlibabaCloud::ocr()
        ->v20191230()
        ->recognizeTable()
        ->withImageUrl('your_image_url')
        ->debug(true) // 可选:打开调试模式,便于定位问题
        ->timeout(3) // 可选:设置请求超时时间(单位:秒)
        ->connectTimeout(3) // 可选:设置连接超时时间(单位:秒)
        ->request();
    
    // 解析API返回结果
    $result = json_decode($response->getBody(), true);
    $tables = $result['Data']['Tables'];
    
    // 输出提取到的文字
    foreach ($tables as $table) {
        foreach ($table['Result']['TableCells'] as $cell) {
            echo $cell['Text'];
        }
    }
    
} catch (ClientException $e) {
    // 处理客户端异常
    echo $e->getErrorMessage();
} catch (ServerException $e) {
    // 处理服务端异常
    echo $e->getErrorMessage();
}

「your_image_url」を次の文字列に置き換えてください。 your 抽出する画像の URL。

  1. PHP ファイルの実行

「extract_table.php」ファイルを保存して閉じ、コマンド ラインで次のコマンドを実行して PHP ファイルを実行します。 ##

php extract_table.php

このとき、PHP は Alibaba Cloud OCR API にリクエストを送信し、テーブル内のテキストを抽出し、結果をコマンド ライン ウィンドウに出力します。

上記の手順を完了すると、PHP と Alibaba Cloud OCR API を使用してテーブル テキスト抽出機能を実装できます。実際のニーズに応じて、抽出したテキストをファイルに保存したり、その後のデータ処理に使用したりできます。この記事がお役に立てば幸いです!

以上がPHP と Alibaba Cloud OCR を使用して表のテキストを抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。