ホームページ >バックエンド開発 >Python チュートリアル ># | PDF データ抽出の自動化: ユーザー受け入れテスト
各機能リリースの前に、ユーザー受け入れテスト (「UAT」) を行ってバグを表面化し、ビジネス ロジックがコードに正しく変換されていることを確認します。
UAT が 100% 成功した後にのみリリース用の機能をクリアします。
私の推論は単純です。エンド ユーザーに良い第一印象を与えるチャンスは 1 回しかなく、リリースの質が悪いとそれが二重に難しくなります。
これは製品リリース向けではない MVP 機能ですが、スキルを常に最新の状態に保つために UAT を実行することは良いことだと思いました。
私が思いついた 19 個の UAT シナリオ のうち、1 つは カストディアン ステートメント PDF テンプレートの変更が原因で失敗しました。
Discovery の段階でこのリスクは予想していましたが、実を言うと、問題がこれほど早く発生するとは予想していませんでした。
バグ修正の詳細については記事の後半で説明します。
私の UAT プロセスには、ビジネス ロジックまたは機能要件を参照として使用して、テスト シナリオと期待される結果を作成することが含まれます。
テスト シナリオは複雑である必要はありません。 「この機能は 30 秒以内に CSV ファイルを生成します」のように単純なものにすることもできます。
UAT の場合、10 個の保管者声明 PDF から 71 ページ の文書を処理しました。これは十分な大きさのサンプル セットである必要があります。
予想される出力は、カストディアン声明 PDF の ファンド保有、有価証券保有、および 現金保有のセクションからの特定のデータポイントを含む 3 つの CSV ファイルです。
次のテストケースを思いつきました:
CSV 1: ファンド保有
CSV 2: 証券保有
CSV 3: 現金保有
テストに失敗した 1 件は、Custodian Statement PDF のテンプレートが 11 月にわずかに変更されたためです。より具体的には、ファンド保有テーブルの「現在値# 1. 外国通貨 2. RM 相当」列の値に、追加の「-n」接頭辞が付けられるようになりました。
たとえば、以前の PDF では「USD 10,000」と表示されていましたが、値は「- USD10,000」と表示されます。
この小さな変更により、次の問題が発生しました:
修正について ChatGPT に相談したところ、誤った「-/n」プレフィックスを削除するために次のスクラビング ロジックを追加することが推奨されました。
# Scrub error prefix df['Currency'] = df['Currency'].str.replace('[-\n]', '', regex=True)
スクラブはうまくいき、Fund Holdings の CSV 出力は期待どおりに出力されるようになりました。
PDF データを抽出するコードが機能することに安心しました。とはいえ、CSV ファイルがこのすべてのデータを保存するのに最適な場所であるとは思いません。
CSV は (私にとっては) ユーザーフレンドリーですが、データをデータベースに保存すると、エンドユーザーの要件に応じてデータを取得したり操作したりすることがはるかに簡単になります。
私はデータベースに関する経験が非常に限られています。そこで次に行うのは、すぐにオンボードできるデータベース アプリケーションでの検出です。
--終了
以上が# | PDF データ抽出の自動化: ユーザー受け入れテストの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。