Maison >développement back-end >Tutoriel Python >Pouvez-vous extraire des données de tableaux structurés à partir de PDF sans OCR ?
Extraire des tableaux de documents PDF tout en préservant leur structure peut être un défi sans l'utilisation de l'OCR. Cette tâche nécessite d'émuler des capacités de reconnaissance de table humaine dans le code.
Dans le cas de l'exemple fourni, il y a un obstacle supplémentaire à surmonter : le PDF ne contient pas de données d'extraction directe de texte. Les tentatives de copier et coller le texte dans Adobe Reader génèrent des caractères semi-aléatoires, indiquant que les polices utilisées dans le document ne sont pas codées correctement.
Cela signifie qu'une extraction de texte fiable est impossible sans utiliser l'OCR. Pour déterminer si l'extraction de texte est possible, il est recommandé d'essayer de copier et coller depuis Adobe Reader, car ses méthodes d'extraction de texte sont robustes. Si aucun texte sensible ne peut être extrait, trouver une solution d'extraction de texte appropriée sera encore plus difficile.
Pour les futurs PDF générés par le même logiciel, il sera peut-être toujours possible de développer une solution personnalisée basée sur les paramètres internes du fichier. structure. Cependant, pour les PDF avec différentes positions de tableau, cette approche peut ne pas être pratique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!