ホームページ >バックエンド開発 >Python チュートリアル >PythonプログラミングでBaidu OCRインターフェースのドッキングと画像テキスト抽出機能を実装
Python プログラミングは、画像テキスト抽出機能を実現するために Baidu OCR インターフェイス ドッキングを実装します。
はじめに:
深層学習の急速な発展に伴い、OCR (光学式文字認識、光学式文字認識) 技術は、コンピュータ ビジョンの分野で徐々に人気のあるアプリケーションの 1 つになってきました。 Baidu AI オープン プラットフォームが提供する OCR インターフェイスは、開発者に便利で高速なテキスト認識機能を提供します。この記事では、Python プログラミングを組み合わせて、Baidu OCR インターフェイスとインターフェイスして画像テキストの抽出機能を実現する方法を説明します。
ステップ 1: Baidu AI オープン プラットフォーム アカウントの申請
まず、Baidu AI オープン プラットフォームの公式 Web サイト (https://ai.baidu.com/) でアカウントを登録する必要があります。登録が完了したら、API KeyとSecret Keyを取得するためのアプリケーションを作成する必要があります。
ステップ 2: 対応する Python ライブラリをインストールする
プログラミングには Python を使用する必要があります。次のライブラリがインストールされていることを確認してください:
これらのライブラリは次のコマンドでインストールできます:
pip install requests
ステップ 3: コーディングの実装
次に、次のように記述します。 Python このコードは画像テキスト抽出関数を実装します。まず、必要なライブラリをインポートする必要があります:
import requests import base64 import hashlib import time import json
次に、API キー、秘密キー、その他の情報を保存するためにいくつかの変数を定義する必要があります:
API_KEY = 'your_api_key' SECRET_KEY = 'your_secret_key' OCR_URL = 'https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic'
次に、画像を Base64 でエンコードされた文字列に変換するために使用される function :
def image_to_base64(image_path): with open(image_path, 'rb') as image_file: return base64.b64encode(image_file.read()).decode('utf-8')
次に、API リクエストの署名情報を生成する関数を記述する必要があります:
def generate_sign(url, params, timestamp, secret_key): sorted_params = sorted(params.items(), key=lambda x: x[0]) sorted_params.append(('timestamp', str(timestamp))) raw_sign = ''.join([x[0] + '=' + x[1] for x in sorted_params]) + secret_key sign = hashlib.md5(raw_sign.encode('utf-8')).hexdigest() return url + '?' + '&'.join([x[0] + '=' + x[1] for x in sorted_params]) + '&sign=' + sign
最後に、 main 関数 Baidu OCR インターフェイスを呼び出して画像テキストの抽出機能を実現するには:
def ocr(image_path): access_token = get_access_token(API_KEY, SECRET_KEY) url_params = { 'access_token': access_token, 'image': image_to_base64(image_path) } timestamp = int(time.time()) request_url = generate_sign(OCR_URL, url_params, timestamp, SECRET_KEY) response = requests.post(request_url) result = response.json() if 'words_result' in result: for word in result['words_result']: print(word['words']) else: print('Error occurred: ' + result['error_msg'])
ステップ 4: コードを実行します
これで、コードを実行して画像内のテキスト情報を抽出できます:
ocr('image.jpg')
実行する前に、「image.jpg」をテキストを抽出する画像のパスに置き換えてください。
結論:
Baidu OCR インターフェースのドッキングは Python プログラミングを通じて実現され、画像テキスト抽出機能が実現されます。これにより、開発者は Baidu AI プラットフォームの OCR テクノロジーを簡単かつ迅速に使用して、さまざまなテキスト認識アプリケーション シナリオを実現できます。文書のスキャン、検証コードの認識、フォームの入力のいずれであっても、OCR の機能を利用することで、ワードプロセッサと分析をより効率的に実行できます。この記事のデモンストレーションを通じて、読者が OCR の動作原理をより深く理解し、実際のプロジェクトでより複雑な OCR アプリケーションを実装できることを願っています。
以上がPythonプログラミングでBaidu OCRインターフェースのドッキングと画像テキスト抽出機能を実装の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。