ホームページ >バックエンド開発 >Python チュートリアル >AI を使用して構造的な出力のための最速かつ正確な請求書データ抽出ツールを作成する

AI を使用して構造的な出力のための最速かつ正確な請求書データ抽出ツールを作成する

WBOY
WBOYオリジナル
2024-08-07 06:36:13789ブラウズ

Create the fastest and precise invoice data extractor for structural output using AI

Pydantic モデルで LlamaExtract を使用してショップのレシートを抽出する

この記事では、ショップのレシートから構造化データを抽出するために、Pydantic モデルのスキーマを組み込んだ LlamaExtract を使用する方法を説明します。このアプローチは、領収書情報を体系的に整理するのに役立ち、分析と管理が容易になります。

設定

まず、llama-extract クライアント ライブラリがインストールされていることを確認します。次のコマンドを使用します:

リーリー

注: pip の更新に関する通知が表示された場合は、提供されているコマンドを使用して更新できます。

まず、ログインして、Llama Index Cloud から API キーを無料で取得します

LlamaExtract API キーの環境変数を設定します:

リーリー

データを読み込む

この例では、PDF 形式の店舗レシートのデータセットがあると仮定しましょう。これらのファイルを、receipations という名前のディレクトリに配置します。

リーリー

出力には、領収書のファイルパスがリストされるはずです:

リーリー

Pydantic モデルを定義する

Pydantic を使用してデータ モデルを定義します。これにより、PDF からどのフィールド/データを期待している、または抽出したいかを API に指示します。店のレシートの場合は、店名、日付、合計金額、購入した商品のリストを抽出することに興味があるかもしれません。

リーリー

スキーマの作成

これで、Pydantic モデルを使用して、LlamaExtract で抽出スキーマを定義できるようになりました。

リーリー

出力スキーマは次のようになります:

リーリー

抽出の実行

スキーマが定義されたので、レシートファイルから構造化データを抽出できるようになりました。応答モデルとして Receipt を指定することで、抽出されたデータが検証され、構造化されていることを確認します。

リーリー

必要に応じて、生の JSON 出力にアクセスできます:

リーリー

JSON 出力の例:

リーリー

結論

この記事では、Pydantic モデルで LlamaExtract を使用してデータ スキーマを定義し、ショップのレシートから構造化データを抽出する方法を説明しました。このアプローチにより、抽出された情報が適切に整理および検証され、取り扱いと分析が容易になります。

これは、請求書、領収書、レポートなどの多くのケースにも使用できます

コーディングを楽しんでください!!

プロジェクトはありますか?私にメールを送ってほしいということですか??: wilbertmisingo@gmail.com

質問がある場合、または私の投稿について誰よりも早く知りたい場合:-
LinkedIn で✅私をフォローしてください?
Twitter/X で✅私をフォローしてください?

以上がAI を使用して構造的な出力のための最速かつ正確な請求書データ抽出ツールを作成するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。