構造を維持しながら PDF ドキュメントからテーブルを抽出することは、OCR を使用しないと困難な場合があります。このタスクでは、人間のテーブル認識機能をコードでエミュレートする必要があります。
提供された例の場合、克服すべき追加のハードルがあります。PDF には直接テキスト抽出データが含まれていません。 Adobe Reader でテキストをコピーして貼り付けようとすると、半ランダムな文字が表示されます。これは、ドキュメントで使用されているフォントが正しくエンコードされていないことを示しています。
これは、OCR を使用しない限り、信頼性の高いテキスト抽出は不可能であることを意味します。テキスト抽出が可能かどうかを判断するには、Adobe Reader のテキスト抽出方法が堅牢であるため、Adobe Reader からコピーして貼り付けてみることをお勧めします。意味のあるテキストを抽出できない場合、適切なテキスト抽出ソリューションを見つけることはさらに困難になります。
同じソフトウェアで将来生成される PDF については、ファイルの内部構造に基づいてカスタム ソリューションを開発できる可能性があります。構造。ただし、テーブルの位置が異なる PDF の場合、このアプローチは現実的ではない可能性があります。
以上がOCR を使用せずに PDF から構造化テーブル データを抽出できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。