PythonプログラミングでBaidu OCRインターフェースのドッキングと画像テキスト抽出機能を実装-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

PythonプログラミングでBaidu OCRインターフェースのドッキングと画像テキスト抽出機能を実装

PHPz

Aug 26, 2023 pm 05:28 PM

Pythonプログラミング画像テキスト抽出百度 ocr インターフェース

PythonプログラミングでBaidu OCRインターフェースのドッキングと画像テキスト抽出機能を実装

Python プログラミングは、画像テキスト抽出機能を実現するために Baidu OCR インターフェイスドッキングを実装します。

はじめに:
深層学習の急速な発展に伴い、OCR (光学式文字認識、光学式文字認識) 技術は、コンピュータビジョンの分野で徐々に人気のあるアプリケーションの 1 つになってきました。 Baidu AI オープンプラットフォームが提供する OCR インターフェイスは、開発者に便利で高速なテキスト認識機能を提供します。この記事では、Python プログラミングを組み合わせて、Baidu OCR インターフェイスとインターフェイスして画像テキストの抽出機能を実現する方法を説明します。

ステップ 1: Baidu AI オープンプラットフォームアカウントの申請
まず、Baidu AI オープンプラットフォームの公式 Web サイト (https://ai.baidu.com/) でアカウントを登録する必要があります。登録が完了したら、API KeyとSecret Keyを取得するためのアプリケーションを作成する必要があります。

ステップ 2: 対応する Python ライブラリをインストールする
プログラミングには Python を使用する必要があります。次のライブラリがインストールされていることを確認してください:

requests: HTTP の送信に使用されます。リクエスト
base64: 画像を Base64 エンコーディングに変換するために使用されます
hashlib: MD5 署名の生成に使用されます
time: タイムスタンプの生成に使用されます
json: API によって返された JSON データを解析する

これらのライブラリは次のコマンドでインストールできます:

pip install requests

ステップ 3: コーディングの実装

次に、次のように記述します。 Python このコードは画像テキスト抽出関数を実装します。まず、必要なライブラリをインポートする必要があります:

import requests
import base64
import hashlib
import time
import json

次に、API キー、秘密キー、その他の情報を保存するためにいくつかの変数を定義する必要があります:

API_KEY = 'your_api_key'
SECRET_KEY = 'your_secret_key'
OCR_URL = 'https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic'

次に、画像を Base64 でエンコードされた文字列に変換するために使用される function :

def image_to_base64(image_path):
    with open(image_path, 'rb') as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

次に、API リクエストの署名情報を生成する関数を記述する必要があります:

def generate_sign(url, params, timestamp, secret_key):
    sorted_params = sorted(params.items(), key=lambda x: x[0])
    sorted_params.append(('timestamp', str(timestamp)))
    raw_sign = ''.join([x[0] + '=' + x[1] for x in sorted_params]) + secret_key
    sign = hashlib.md5(raw_sign.encode('utf-8')).hexdigest()
    return url + '?' + '&'.join([x[0] + '=' + x[1] for x in sorted_params]) + '&sign=' + sign

最後に、 main 関数 Baidu OCR インターフェイスを呼び出して画像テキストの抽出機能を実現するには:

def ocr(image_path):
    access_token = get_access_token(API_KEY, SECRET_KEY)
    url_params = {
        'access_token': access_token,
        'image': image_to_base64(image_path)
    }
    timestamp = int(time.time())
    request_url = generate_sign(OCR_URL, url_params, timestamp, SECRET_KEY)
    response = requests.post(request_url)
    result = response.json()
    if 'words_result' in result:
        for word in result['words_result']:
            print(word['words'])
    else:
        print('Error occurred: ' + result['error_msg'])

ステップ 4: コードを実行します
これで、コードを実行して画像内のテキスト情報を抽出できます:

ocr('image.jpg')

実行する前に、「image.jpg」をテキストを抽出する画像のパスに置き換えてください。

結論:
Baidu OCR インターフェースのドッキングは Python プログラミングを通じて実現され、画像テキスト抽出機能が実現されます。これにより、開発者は Baidu AI プラットフォームの OCR テクノロジーを簡単かつ迅速に使用して、さまざまなテキスト認識アプリケーションシナリオを実現できます。文書のスキャン、検証コードの認識、フォームの入力のいずれであっても、OCR の機能を利用することで、ワードプロセッサと分析をより効率的に実行できます。この記事のデモンストレーションを通じて、読者が OCR の動作原理をより深く理解し、実際のプロジェクトでより複雑な OCR アプリケーションを実装できることを願っています。

以上がPythonプログラミングでBaidu OCRインターフェースのドッキングと画像テキスト抽出機能を実装の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonアレイで実行できる一般的な操作は何ですか？Apr 26, 2025 am 12:22 AM

PythonArraysSupportVariousoperations：1）SlicingExtractsSubsets、2）Appending/ExtendingAdddesements、3）inSertingSelementSatspecificpositions、4）remvingingDeletesements、5）sorting/verversingsorder、and6）listenionsionsionsionsionscreatenewlistsebasedexistin

一般的に使用されているnumpy配列はどのようなアプリケーションにありますか？Apr 26, 2025 am 12:13 AM

numpyarraysAressertialentionsionceivationsefirication-efficientnumericalcomputations andDatamanipulation.theyarecrucialindatascience、mashineelearning、物理学、エンジニアリング、および促進可能性への適用性、scaledatiencyを効率的に、forexample、infinancialanalyyy

Pythonのリスト上の配列を使用するのはいつですか？Apr 26, 2025 am 12:12 AM

UseanArray.ArrayOverAlistinPythonは、Performance-criticalCode.1）homogeneousdata：araysavememorywithpedelements.2）Performance-criticalcode：Araysofterbetterbetterfornumerumerumericaleperations.3）interf

すべてのリスト操作は配列でサポートされていますか？なぜまたはなぜですか？Apr 26, 2025 am 12:05 AM

いいえ、notallistoperationSaresuptedbyarrays、andviceversa.1）arraysdonotsupportdynamicoperationslikeappendorintorintorinsertizizing、whosimpactsporformance.2）リスト

Pythonリストの要素にどのようにアクセスしますか？Apr 26, 2025 am 12:03 AM

toaccesselementsinapythonlist、useindexing、negativeindexing、slicing、oriteration.1）indexingstartsat0.2）negativeindexingAcsesess.3）slicingextractStions.4）reterationSuseSuseSuseSuseSeSeS forLoopseCheckLentlentlentlentlentlentlenttodExeror。

Pythonを使用した科学コンピューティングでアレイはどのように使用されていますか？Apr 25, 2025 am 12:28 AM

Arraysinpython、特にvianumpy、arecrucialinscientificComputing fortheirefficienty andversitility.1）彼らは、fornumericaloperations、data analysis、andmachinelearning.2）numpy'simplementation incensuresfasteroperationsthanpasteroperations.3）arayableminablecickick

同じシステムで異なるPythonバージョンをどのように処理しますか？Apr 25, 2025 am 12:24 AM

Pyenv、Venv、およびAnacondaを使用して、さまざまなPythonバージョンを管理できます。 1）Pyenvを使用して、複数のPythonバージョンを管理します。Pyenvをインストールし、グローバルバージョンとローカルバージョンを設定します。 2）VENVを使用して仮想環境を作成して、プロジェクトの依存関係を分離します。 3）Anacondaを使用して、データサイエンスプロジェクトでPythonバージョンを管理します。 4）システムレベルのタスク用にシステムPythonを保持します。これらのツールと戦略を通じて、Pythonのさまざまなバージョンを効果的に管理して、プロジェクトのスムーズな実行を確保できます。

標準のPythonアレイでnumpyアレイを使用することの利点は何ですか？Apr 25, 2025 am 12:21 AM

numpyarrayshaveveraladvantages-averstandardpythonarrays：1）thealmuchfasterduetocベースのインプレンテーション、2）アレモレメモリ効率、特にlargedatasets、および3）それらは、拡散化された、構造化された形成術科療法、

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

WebStorm Mac版

便利なJavaScript開発ツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。