# | Automatisez l'extraction de données PDF : tests d'acceptation des utilisateurs-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

# | Automatisez l'extraction de données PDF : tests d'acceptation des utilisateurs

Mary-Kate Olsen

Dec 16, 2024 am 12:18 AM

Aperçu

Avant chaque version de fonctionnalité, j'effectue des Tests d'acceptation utilisateur (« UAT ») pour détecter les bogues et m'assurer que la logique métier est correctement traduite en code.

Je n'autorise la publication d'une fonctionnalité qu'une fois l'UAT réussie à 100 %.

Mon raisonnement est simple : vous n'avez qu'une seule chance de faire une bonne première impression à votre utilisateur final, et une mauvaise version rend cette tâche doublement difficile.

# | Automate PDF data extraction: User Acceptance Testing

Bien qu'il s'agisse d'une fonctionnalité MVP qui n'est pas destinée à la production, j'ai pensé que ce serait bien de faire un peu d'UAT pour garder mes compétences à jour.

Résultats

Parmi les 19 scénarios UAT que j'ai proposés, un a échoué en raison d'un changement dans le modèle PDF de la Déclaration du dépositaire.

J'avais anticipé ce risque lors de Discovery, mais à vrai dire, je ne m'attendais pas à ce que le problème surgisse si tôt.

J'entrerai dans les détails de la correction des bugs plus loin dans l'article.

Méthodologie

Mon processus UAT implique d'utiliser la logique métier ou les exigences des fonctionnalités comme référence pour créer des scénarios de test et les résultats attendus.

Les scénarios de test n'ont pas besoin d'être compliqués. Ils peuvent être aussi simples que : "La fonctionnalité génère un fichier CSV en 30 secondes".

Pour l'UAT, j'ai traité 71 pages de documents provenant de 10 PDF de déclaration de garde. Il devrait s'agir d'un ensemble d'échantillons suffisamment grand.

Le résultat attendu est trois fichiers CSV contenant des points de données spécifiques des sections Fund Holdings, Securities Holdings et Cash Holdings du PDF de la déclaration du dépositaire.

J'ai proposé les cas de test suivants :

CSV 1 : avoirs du fonds

# | Automate PDF data extraction: User Acceptance Testing

CSV 2 : Titres détenus

# | Automate PDF data extraction: User Acceptance Testing

CSV 3 : avoirs en espèces

# | Automate PDF data extraction: User Acceptance Testing

Correction de bugs

Le seul test qui a échoué est dû au fait que le modèle PDF de la déclaration du dépositaire a légèrement changé en novembre. Plus précisément, les valeurs de la colonne « Valeur actuelle n° 1. Devise étrangère 2. Équivalent en RM » d'un tableau des avoirs du fonds comportent désormais un préfixe « -n » supplémentaire.

Par exemple, au lieu de lire « 10 000 USD » dans les PDF précédents, la valeur indique désormais « - 10 000 USD ».

# | Automate PDF data extraction: User Acceptance Testing

Ce petit changement a entraîné le problème suivant :

# | Automate PDF data extraction: User Acceptance Testing

J'ai consulté ChatGPT sur un correctif, et il a recommandé que la logique de nettoyage suivante soit ajoutée pour supprimer le préfixe "-/n" incorrect.

# Scrub error prefix
df['Currency'] = df['Currency'].str.replace('[-\n]', '', regex=True)

Le nettoyage a fait l'affaire et la sortie CSV de Fund Holdings s'affiche désormais comme prévu.

Et ensuite ?

Je suis maintenant convaincu que le code pour extraire les données PDF est fonctionnel. Cela dit, je ne pense pas qu'un fichier CSV soit le meilleur endroit pour stocker toutes ces données.

Bien que CSV soit convivial (pour moi), le stockage des données dans une base de données facilite grandement la récupération et la manipulation des données selon les exigences de l'utilisateur final.

J'ai une expérience très limitée dans les bases de données. Ce que je vais donc faire ensuite, c'est Discovery sur une application de base de données que je peux intégrer rapidement.

--Fin

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Merger des listes dans Python: Choisir la bonne méthodeMay 14, 2025 am 12:11 AM

TomegelistSinpython, vous pouvez faire l'opérateur, ExtendMethod, ListComprehension, oriteroTools.chain, chacun avec des avantages spécifiques: 1) l'opératorissimplebutlessoficiesivetforlatelists; 2) ExtendisMemory-EfficientButmodifiestheoriginallist; 3)

Comment concaténer deux listes dans Python 3?May 14, 2025 am 12:09 AM

Dans Python 3, deux listes peuvent être connectées via une variété de méthodes: 1) Utiliser l'opérateur, qui convient aux petites listes, mais est inefficace pour les grandes listes; 2) Utiliser la méthode Extende, qui convient aux grandes listes, avec une efficacité de mémoire élevée, mais modifiera la liste d'origine; 3) Utiliser * l'opérateur, qui convient à la fusion de plusieurs listes, sans modifier la liste originale; 4) Utilisez Itertools.chain, qui convient aux grands ensembles de données, avec une efficacité de mémoire élevée.

Chaînes de liste de concaténate pythonMay 14, 2025 am 12:08 AM

L'utilisation de la méthode join () est le moyen le plus efficace de connecter les chaînes à partir des listes de Python. 1) Utilisez la méthode join () pour être efficace et facile à lire. 2) Le cycle utilise les opérateurs de manière inefficace pour les grandes listes. 3) La combinaison de la compréhension de la liste et de la jointure () convient aux scénarios qui nécessitent une conversion. 4) La méthode Reduce () convient à d'autres types de réductions, mais est inefficace pour la concaténation des cordes. La phrase complète se termine.

Exécution de Python, qu'est-ce que c'est?May 14, 2025 am 12:06 AM

PythonexecutionistheprocessoftransformingpythoncodeintoexecuableInstructions.1) the IntrepreterredSthecode, convertingitintoStecode, quithepythonvirtualmachine (pvm)

Python: quelles sont les principales caractéristiquesMay 14, 2025 am 12:02 AM

Les caractéristiques clés de Python incluent: 1. La syntaxe est concise et facile à comprendre, adaptée aux débutants; 2. Système de type dynamique, améliorant la vitesse de développement; 3. Rich Standard Library, prenant en charge plusieurs tâches; 4. Community et écosystème solide, fournissant un soutien approfondi; 5. Interprétation, adaptée aux scripts et au prototypage rapide; 6. Support multi-paradigme, adapté à divers styles de programmation.

Python: compilateur ou interprète?May 13, 2025 am 12:10 AM

Python est une langue interprétée, mais elle comprend également le processus de compilation. 1) Le code Python est d'abord compilé en bytecode. 2) ByteCode est interprété et exécuté par Python Virtual Machine. 3) Ce mécanisme hybride rend Python à la fois flexible et efficace, mais pas aussi rapide qu'une langue entièrement compilée.

Python pour Loop vs While Loop: Quand utiliser lequel?May 13, 2025 am 12:07 AM

Usaforloopwheniterating aepasquenceorfor pourpascific inumberoftimes; useawhileloopwencontinTutuntutilaconditioniseMet.ForloopsareIdealForkNown séquences, tandis que celle-ci, ce qui est en train de réaliser des étages.

Python Loops: les erreurs les plus courantesMay 13, 2025 am 12:07 AM

PythonloopscanleadtoerrorlikeInfiniteLoops, modificationlistDuringiteration, off-by-by-oneerrors, zéro-indexingisss et intestloopinefficisecy.toavoid this: 1) use'i

See all articles