非構造化メールを実用的なデータに変える-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

非構造化メールを実用的なデータに変える

DDD

Dec 07, 2024 am 10:47 AM

Turn Unstructured Emails to Actionable Data

このビルドでは、物流業界向けに設計されたツールを構築しています。このツールは、電子メールの PDF 添付ファイル (見積依頼や配送情報シートなど) からの構造化データの抽出を自動化し、このデータをワークフローの他の場所で使用できるようにします。

理解を容易にするために、さまざまな都市間で壊れやすい電子機器を輸送することを専門とする架空の会社である Nova Logistics を例として使用してみましょう。

Nova Logistics では、顧客は電子メールで都市間での商品の配送の見積もりを依頼します。通常、必要な配送の詳細がすべて含まれた PDF が添付されます。現在、このプロセスは手動です。Nova の担当者は各メールを開き、添付の PDF をダウンロードして読み、商品名や数量などの重要な情報を抽出してから送料を計算する必要があります。

特に 1 日に複数の電子メールが送信され、それぞれに長い PDF ドキュメントが含まれている場合、これには数時間かかることがあります。

この記事では、メールの取得と PDF データの抽出から、抽出された情報の Google スプレッドシートへの送信まで、このプロセス全体を自動化するツールの構築について説明します。

仕組み

メールのポーリング: まず、受信箱から新しいメールを定期的にチェックするシステムをセットアップします。メールが見つかると、PDF 添付ファイルがダウンロードされ、メールにラベルが適用され、今後再度ポーリングされないようになります。
Documind でデータを抽出: PDF を URL として Documind に渡します。これは、AI を使用してドキュメントから構造化データを抽出するオープンソースパッケージです。これにより、商品名、数量、配送詳細、重量などの情報が得られます。
データの保存と使用: 最後に、抽出したデータを Google スプレッドシート に送信します。これにより、簡単に表示、追跡し、さらなる計算に使用できるようになります。

必要なもの

このツールを構築するには、次のパッケージが必要です:

Gmail API: 受信トレイからメールを取得します。
Supabase: PDF をアップロードして保存します。
Documind: PDF から構造化データを抽出します。
Google Sheets API: 抽出されたデータを保存し、見積もりを計算します。
Nango: ユーザー認証を管理するため

ステップ 1: 初期セットアップ

コードを書き始める前に、いくつかのことを設定する必要があります。心配しないで;各ステップについてご案内します。

1.1 Node.js をインストールする

コードを実行するには Node.js を使用します。 Node.js がインストールされていない場合は、Node.js Web サイトにアクセスして最新バージョンをダウンロードしてください。

1.2 必要なライブラリをインストールする

Node.js がインストールされたら、Gmail、Google Sheets、Supabase、Documind とのやり取りに役立つパッケージをインストールする必要があります。

ターミナル または コマンドプロンプト を開きます。
次のコマンドを実行して、プロジェクト用の新しいフォルダーを作成します。
```
mkdir nova
cd nova
```
プロジェクトを初期化します:
```
npm init -y
```

必要なパッケージをインストールします:

npm install googleapis @supabase/supabase-js documind dotenv @nangohq/node

1.3 API 認証情報を取得する

コードの記述を開始する前に、Google API (Gmail と Google Sheets)、Supabase、および Documind を使用するためのすべての認証情報を設定して取得する必要があります。それぞれのクイックガイドは次のとおりです:

Google API

Google Cloud コンソールに移動します。
プロジェクトリストからプロジェクトを選択するか、新しいプロジェクトを作成します
プロジェクトで Gmail API と Google Sheets API を有効にします。
- Cloud Console の API ライブラリに移動し、「Gmail API」と「Google Sheets API」を検索します。それぞれをクリックして有効にします。
同意画面を設定します:
- 「API とサービス」に移動 > OAuth 同意画面
- アプリに名前を付けます。
- 対象ユーザーのタイプとして「外部」を選択します。
- その他の必須フィールドに入力します。
OAuth 2.0 認証情報を作成します。
- 「API とサービス」に移動 >資格情報。
- [認証情報の作成] をクリックし、OAuth クライアント ID を選択します。
- アプリケーションの種類として「Web アプリケーション」を選択します。
- クライアント ID とシークレットをコピーします。
複数のプラットフォームにわたるユーザーの OAuth を簡単に管理するために、Nango を使用しています。開始方法については、次のドキュメントを参照してください。
- Nango にログインし、[新しい統合の構成] をクリックします。
- 統合のリストで Google Mail を検索します。
- コピーしたクライアント ID とシークレットを追加します。
- スコープのフィールドに、 https://www.googleapis.com/auth/gmail.readonly 、 https://www.googleapis.com/auth/gmail.modify 、および https://www.googleapis を追加します。 com/auth/gmail.labels
- 統合のコールバック URL をコピーして保存します。
- Google コンソールの [認証情報] に戻り、コールバック URL を承認されたリダイレクト URI として追加します。

Google Sheets API も使用しているため、ステップ 6 を実行するだけで Nango で別の統合を作成できます。 Google スプレッドシート統合を検索し、コピーしたものと同じクライアント ID とシークレットを使用します。スコープのスペースに、https://www.googleapis.com/auth/spreadsheets

を追加します。

アプリを公開するには、Google コンソールの OAuth 同意画面に移動し、[公開] ボタンをクリックします。

スーパーベース

Supabase で無料アカウントにサインアップしてください。
PDF を保存するための新しい プロジェクト と バケット を作成します。
プロジェクト設定から API URL と API キー を取得します。

ステップ 2: コードを書く

次に、コードを少しずつ書いてみましょう。

2.1 環境変数を追加する

コード全体で使用されるすべての重要な変数を保存する .env ファイルを作成します。以下に例を示します:

mkdir nova
cd nova

コード内でこれらの変数を取得して使用する方法を詳しく説明します。

2.2 Gmail API を設定してメールを取得する

まず、Gmail API を使用して、「処理済み」ラベルのない添付ファイルを含むメールを取得します。

必要なアクセストークンを取得するには、Nango を使用します。トークンの有効期限が切れた場合、トークンの更新が自動的に処理されるため、トークンのライフサイクルを自分で管理することを心配する必要はありません。

必要なのは次のとおりです:

Nango の Gmail セットアップの 統合 ID。
アクセストークンが必要なユーザーの 接続 ID。
あなたの Nango 秘密鍵 。

自分の Gmail アカウントを使用して、Nango UI から直接新しい接続を簡単に追加できます。秘密キーは、Nango ダッシュボードの環境設定セクションにあります。

npm init -y

わかりやすくするために、一度に結果を 5 件のメールに制限し、PDF が添付されたメールのみを取得するように具体的にフィルタリングします。これらから、処理のために最初の添付ファイルだけを取得します。添付ファイルをダウンロードした後、ラベルを適用してメールに処理済みのマークを付け、今後のポーリングサイクルで再度取得されないようにします。

2.2 Supabase へのアップロード

次に、ダウンロードした PDF を Supabase にアップロードする必要があります。コード内のバケット名を必ず自分のものに置き換えてください。

npm install googleapis @supabase/supabase-js documind dotenv @nangohq/node

2.3 Documind を使用してデータを抽出する

PDF が Supabase に保存されたら、Documind を使用して関連データを抽出します。処理に OpenAI を利用するため、API キーが .env ファイルに追加されていることを確認してください。

Documind は、定義したスキーマを使用して、必要な構造化データを抽出します。スキーマ定義についてはすぐに説明しますが、詳細についてはドキュメントを参照してください。

SUPABASE_API_KEY=<supabase api key>
SUPABASE_URL=<supabase url>
OPENAI_API_KEY=<open ai api key>
NANGO_KEY=<nango secret key>
</nango></open></supabase></supabase>

2.4 抽出したデータを Google スプレッドシートに送信します

PDF からデータを抽出した後、Google スプレッドシートに送信します。

続行する前に、Google スプレッドシートが設定されていること、および Nango を介してアカウントとの接続が作成されていることを確認してください。まだお持ちでない場合は、こちらのテンプレートを使って始めてください。

mkdir nova
cd nova

ステップ 3: すべてをまとめる

個別の関数を記述したので、次はすべてをまとめる必要があります。

このステップでは、Documind が必要なデータを抽出するために使用するスキーマを定義します。このスキーマは、AI が PDF から関連情報を特定して構造化するのに役立ちます。

npm init -y

コードをテストする

完全なソースコードは、テスト用のサンプル PDF とともに GitHub で入手できます。ただし、独自のドキュメントを作成して使用することもできます。リポジトリのクローンを作成し、要件に合わせてコードを変更し、独自のユースケースで試してみるだけです。

以上が非構造化メールを実用的なデータに変えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

JavaScriptの文字列文字を交換しますMar 11, 2025 am 12:07 AM

JavaScript文字列置換法とFAQの詳細な説明この記事では、javaScriptの文字列文字を置き換える2つの方法について説明します：内部JavaScriptコードとWebページの内部HTML。 JavaScriptコード内の文字列を交換します最も直接的な方法は、置換（）メソッドを使用することです。 str = str.replace（ "find"、 "置換"）; この方法は、最初の一致のみを置き換えます。すべての一致を置き換えるには、正規表現を使用して、グローバルフラグGを追加します。 str = str.replace（/fi

独自のAjax Webアプリケーションを構築しますMar 09, 2025 am 12:11 AM

それで、あなたはここで、Ajaxと呼ばれるこのことについてすべてを学ぶ準備ができています。しかし、それは正確には何ですか？ Ajaxという用語は、動的でインタラクティブなWebコンテンツを作成するために使用されるテクノロジーのゆるいグループ化を指します。 Ajaxという用語は、もともとJesse Jによって造られました

10 jQueryの楽しみとゲームプラグインMar 08, 2025 am 12:42 AM

10の楽しいjQueryゲームプラグインして、あなたのウェブサイトをより魅力的にし、ユーザーの粘着性を高めます！ Flashは依然としてカジュアルなWebゲームを開発するのに最適なソフトウェアですが、jQueryは驚くべき効果を生み出すこともできます。また、純粋なアクションフラッシュゲームに匹敵するものではありませんが、場合によってはブラウザで予期せぬ楽しみもできます。 jquery tic toeゲームゲームプログラミングの「Hello World」には、JQueryバージョンがあります。ソースコード jQueryクレイジーワードコンポジションゲームこれは空白のゲームであり、単語の文脈を知らないために奇妙な結果を生み出すことができます。ソースコード jquery鉱山の掃引ゲーム

jQuery Parallaxチュートリアル - アニメーションヘッダーの背景Mar 08, 2025 am 12:39 AM

このチュートリアルでは、jQueryを使用して魅惑的な視差の背景効果を作成する方法を示しています。見事な視覚的な深さを作成するレイヤー画像を備えたヘッダーバナーを構築します。更新されたプラグインは、jQuery 1.6.4以降で動作します。ダウンロードしてください

独自のJavaScriptライブラリを作成および公開するにはどうすればよいですか？Mar 18, 2025 pm 03:12 PM

記事では、JavaScriptライブラリの作成、公開、および維持について説明し、計画、開発、テスト、ドキュメント、およびプロモーション戦略に焦点を当てています。

ブラウザでのパフォーマンスのためにJavaScriptコードを最適化するにはどうすればよいですか？Mar 18, 2025 pm 03:14 PM

この記事では、ブラウザでJavaScriptのパフォーマンスを最適化するための戦略について説明し、実行時間の短縮、ページの負荷速度への影響を最小限に抑えることに焦点を当てています。

Matter.jsを始めましょう：はじめにMar 08, 2025 am 12:53 AM

Matter.jsは、JavaScriptで書かれた2D Rigid Body Physics Engineです。このライブラリは、ブラウザで2D物理学を簡単にシミュレートするのに役立ちます。剛体を作成し、質量、面積、密度などの物理的特性を割り当てる機能など、多くの機能を提供します。また、重力摩擦など、さまざまな種類の衝突や力をシミュレートすることもできます。 Matter.jsは、すべての主流ブラウザをサポートしています。さらに、タッチを検出し、応答性が高いため、モバイルデバイスに適しています。これらの機能はすべて、物理ベースの2Dゲームまたはシミュレーションを簡単に作成できるため、エンジンの使用方法を学ぶために時間をかける価値があります。このチュートリアルでは、このライブラリのインストールや使用法を含むこのライブラリの基本を取り上げ、

jqueryとajaxを使用した自動更新DivコンテンツMar 08, 2025 am 12:58 AM

この記事では、JQueryとAjaxを使用して5秒ごとにDivのコンテンツを自動的に更新する方法を示しています。この例は、RSSフィードからの最新のブログ投稿と、最後の更新タイムスタンプを取得して表示します。読み込み画像はオプションです

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。