Heim > Artikel > Backend-Entwicklung > Wie kann ich strukturierte Tabellen aus einem PDF mit Schriftartproblemen und nicht-englischem Text extrahieren?
Frage:
Obwohl Sie verschiedene Methoden ausprobiert haben, können Sie keine strukturierten Tabellen extrahieren Daten aus PDF-Dokumenten. Insbesondere die Konvertierung der PDF-Datei in HTML führt aufgrund von Schriftartproblemen und nicht-englischem Text zu unbefriedigenden Ergebnissen. Darüber hinaus ist das Extrahieren auf Basis von XY-Koordinaten unpraktisch, da die Tabellenplatzierungen in zukünftigen PDFs möglicherweise variieren.
Expertenanalyse:
Im Gegensatz zu strukturierten Tabellenkalkulationen fehlen PDFs explizite Tabellendaten. Stattdessen stellen sie eine Kombination aus Linien und Zeichenglyphen dar, die der Mensch als Tabellen wahrnimmt. Das Extrahieren tabellarischer Daten erfordert rechnerische Erkennungstechniken, die der menschlichen Wahrnehmung ähneln.
Unter bestimmten Umständen, wenn PDFs konsequent einem bestimmten Format folgen, kann es möglich sein, Muster zu erkennen und Regeln für die Erkennung von Tabelleninhalten zu entwickeln. Das bereitgestellte PDF-Dokument stellt jedoch eine weitere Herausforderung dar:
Problem mit eingebetteten Schriftarten:
Das PDF enthält Text, der nicht mit der beanspruchten WinAnsiEncoding codiert ist. Diese Diskrepanz führt dazu, dass unvorhersehbare Zeichen extrahiert werden, was das direkte Abrufen von Text unpraktisch macht.
Einschränkungen bei der Textextraktion:
Kopieren und Einfügen aus Adobe Reader, einem zuverlässigen Textextraktionstool, liefert auch keine aussagekräftigen Ergebnisse. Dies weist darauf hin, dass eine Textextraktion ohne optische Zeichenerkennung (OCR) in diesem Fall nicht möglich ist.
Daher ist die Extraktion strukturierter Tabellen aus Ihrem PDF-Dokument ohne Rückgriff auf OCR derzeit nicht möglich.
Das obige ist der detaillierte Inhalt vonWie kann ich strukturierte Tabellen aus einem PDF mit Schriftartproblemen und nicht-englischem Text extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!