


# | Automatisez l'extraction de données PDF : tests d'acceptation des utilisateurs
Aperçu
Avant chaque version de fonctionnalité, j'effectue des Tests d'acceptation utilisateur (« UAT ») pour détecter les bogues et m'assurer que la logique métier est correctement traduite en code.
Je n'autorise la publication d'une fonctionnalité qu'une fois l'UAT réussie à 100 %.
Mon raisonnement est simple : vous n'avez qu'une seule chance de faire une bonne première impression à votre utilisateur final, et une mauvaise version rend cette tâche doublement difficile.
Bien qu'il s'agisse d'une fonctionnalité MVP qui n'est pas destinée à la production, j'ai pensé que ce serait bien de faire un peu d'UAT pour garder mes compétences à jour.
Résultats
Parmi les 19 scénarios UAT que j'ai proposés, un a échoué en raison d'un changement dans le modèle PDF de la Déclaration du dépositaire.
J'avais anticipé ce risque lors de Discovery, mais à vrai dire, je ne m'attendais pas à ce que le problème surgisse si tôt.
J'entrerai dans les détails de la correction des bugs plus loin dans l'article.
Méthodologie
Mon processus UAT implique d'utiliser la logique métier ou les exigences des fonctionnalités comme référence pour créer des scénarios de test et les résultats attendus.
Les scénarios de test n'ont pas besoin d'être compliqués. Ils peuvent être aussi simples que : "La fonctionnalité génère un fichier CSV en 30 secondes".
Pour l'UAT, j'ai traité 71 pages de documents provenant de 10 PDF de déclaration de garde. Il devrait s'agir d'un ensemble d'échantillons suffisamment grand.
Le résultat attendu est trois fichiers CSV contenant des points de données spécifiques des sections Fund Holdings, Securities Holdings et Cash Holdings du PDF de la déclaration du dépositaire.
J'ai proposé les cas de test suivants :
CSV 1 : avoirs du fonds
CSV 2 : Titres détenus
CSV 3 : avoirs en espèces
Correction de bugs
Le seul test qui a échoué est dû au fait que le modèle PDF de la déclaration du dépositaire a légèrement changé en novembre. Plus précisément, les valeurs de la colonne « Valeur actuelle n° 1. Devise étrangère 2. Équivalent en RM » d'un tableau des avoirs du fonds comportent désormais un préfixe « -n » supplémentaire.
Par exemple, au lieu de lire « 10 000 USD » dans les PDF précédents, la valeur indique désormais « - 10 000 USD ».
Ce petit changement a entraîné le problème suivant :
J'ai consulté ChatGPT sur un correctif, et il a recommandé que la logique de nettoyage suivante soit ajoutée pour supprimer le préfixe "-/n" incorrect.
# Scrub error prefix df['Currency'] = df['Currency'].str.replace('[-\n]', '', regex=True)
Le nettoyage a fait l'affaire et la sortie CSV de Fund Holdings s'affiche désormais comme prévu.
Et ensuite ?
Je suis maintenant convaincu que le code pour extraire les données PDF est fonctionnel. Cela dit, je ne pense pas qu'un fichier CSV soit le meilleur endroit pour stocker toutes ces données.
Bien que CSV soit convivial (pour moi), le stockage des données dans une base de données facilite grandement la récupération et la manipulation des données selon les exigences de l'utilisateur final.
J'ai une expérience très limitée dans les bases de données. Ce que je vais donc faire ensuite, c'est Discovery sur une application de base de données que je peux intégrer rapidement.
--Fin
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

TomegelistSinpython, vous pouvez faire l'opérateur, ExtendMethod, ListComprehension, oriteroTools.chain, chacun avec des avantages spécifiques: 1) l'opératorissimplebutlessoficiesivetforlatelists; 2) ExtendisMemory-EfficientButmodifiestheoriginallist; 3)

Dans Python 3, deux listes peuvent être connectées via une variété de méthodes: 1) Utiliser l'opérateur, qui convient aux petites listes, mais est inefficace pour les grandes listes; 2) Utiliser la méthode Extende, qui convient aux grandes listes, avec une efficacité de mémoire élevée, mais modifiera la liste d'origine; 3) Utiliser * l'opérateur, qui convient à la fusion de plusieurs listes, sans modifier la liste originale; 4) Utilisez Itertools.chain, qui convient aux grands ensembles de données, avec une efficacité de mémoire élevée.

L'utilisation de la méthode join () est le moyen le plus efficace de connecter les chaînes à partir des listes de Python. 1) Utilisez la méthode join () pour être efficace et facile à lire. 2) Le cycle utilise les opérateurs de manière inefficace pour les grandes listes. 3) La combinaison de la compréhension de la liste et de la jointure () convient aux scénarios qui nécessitent une conversion. 4) La méthode Reduce () convient à d'autres types de réductions, mais est inefficace pour la concaténation des cordes. La phrase complète se termine.

PythonexecutionistheprocessoftransformingpythoncodeintoexecuableInstructions.1) the IntrepreterredSthecode, convertingitintoStecode, quithepythonvirtualmachine (pvm)

Les caractéristiques clés de Python incluent: 1. La syntaxe est concise et facile à comprendre, adaptée aux débutants; 2. Système de type dynamique, améliorant la vitesse de développement; 3. Rich Standard Library, prenant en charge plusieurs tâches; 4. Community et écosystème solide, fournissant un soutien approfondi; 5. Interprétation, adaptée aux scripts et au prototypage rapide; 6. Support multi-paradigme, adapté à divers styles de programmation.

Python est une langue interprétée, mais elle comprend également le processus de compilation. 1) Le code Python est d'abord compilé en bytecode. 2) ByteCode est interprété et exécuté par Python Virtual Machine. 3) Ce mécanisme hybride rend Python à la fois flexible et efficace, mais pas aussi rapide qu'une langue entièrement compilée.

Usaforloopwheniterating aepasquenceorfor pourpascific inumberoftimes; useawhileloopwencontinTutuntutilaconditioniseMet.ForloopsareIdealForkNown séquences, tandis que celle-ci, ce qui est en train de réaliser des étages.

PythonloopscanleadtoerrorlikeInfiniteLoops, modificationlistDuringiteration, off-by-by-oneerrors, zéro-indexingisss et intestloopinefficisecy.toavoid this: 1) use'i


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

MantisBT
Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

Adaptateur de serveur SAP NetWeaver pour Eclipse
Intégrez Eclipse au serveur d'applications SAP NetWeaver.
