ホームページ  >  記事  >  バックエンド開発  >  phpはXpdfを使用してPDFのコンテンツを読み取ります

phpはXpdfを使用してPDFのコンテンツを読み取ります

WBOY
WBOYオリジナル
2016-07-25 09:03:481959ブラウズ
  1. [root@localhost ~]# mkdir -p /lcf/upan
  2. [root@localhost ~]# mkdir -p /lcf/cdrom
  3. [root@localhost ~]# mkdir -p /lcf/xpdf
  4. [root@localhost ~]# cd /lcf/upan/
  5. [root@localhost upan]# cp xpdf/* ../xpdf/ (ダウンロードしたファイルは /lcf/xpdf ディレクトリに配置されます)
  6. [root@localhost upan] ]# cd ../xpdf/
  7. [root@localhost xpdf]# tar -zxvf xpdfbin-linux-3.03.tar.gz
  8. [root@localhost xpdf]# cd xpdfbin-linux-3.03
  9. [root@localhost xpdfbin-linux -3.03 ]# cat INSTALL
  10. [root@localhost xpdfbin-linux-3.03]# cd bin32/
  11. [root@localhost bin32]# cp ./* /usr/local/bin/
  12. [root@localhost bin32]# cd . ./ doc/
  13. [root@localhost doc]# mkdir -p /usr/local/man/man1
  14. [root@localhost doc]# mkdir -p /usr/local/man/man5
  15. [root@localhost doc]# cp * .1 /usr/local/man/man1
  16. [root@localhost doc]# cp *.5 /usr/local/man/man5
コードをコピー

中国語を読む必要がない場合は、ここに行ってください。これで終わりです。必要に応じて続けましょう。

  1. [root@localhost doc]# cp sample-xpdfrc /usr/local/etc/xpdfrc
  2. [root@localhost xpdf]# cd /lcf/xpdf
  3. [root@localhost xpdf]# tar -zxvf xpdf -chinese-simplified.tar.gz
  4. [root@localhost xpdf]# cd xpdf-簡体字中国語
  5. [root@localhost xpdf]# mkdir -p/usr/local/share/xpdf/簡体字中国語
  6. [root@localhost xpdf]# cd xpdf-chinese-simplified/
  7. [root@localhost xpdf-chinese-simplified]# cp Adob​​e-GB1.cidToUnicode ISO-2022-CN.unicodeMap EUC-CN.unicodeMap GBK.unicodeMap CMAP /usr/local/share /xpdf/chinese-simplified/
コードをコピー

簡体字中国語のファイル add-to-xpdfrc の内容を /usr/local/etc/xpdfrc ファイルにコピーします。内部のパスは正しい必要があることに注意してください。 (ここでの簡体字中国語パッケージには ISO-2022-CN、EUC-CN、GBK の 3 つの形式が含まれていることに注意してください。UTF-8 はサポートされていないことをよく見てください。最初に GBK に変換してからエスケープできます)

3. 機能の実装 この時点で、すべての設定が完了したので、使用を開始します。 単純な PDF の読み取りの場合は、次のステートメントを使用するだけです。 $content = shell_exec('/usr/local/bin/pdftotext '.$ファイル名.' -'); 中国語に変換する必要がある場合は、次のようなパラメータを追加します。 $content = shell_exec('/usr/local/bin/pdftotext -layout -enc GBK '.$filename.' -'); もちろん、パラメータを追加しても英語変換には影響しませんので、安心してご利用ください。ここで転送されるのは GBK エンコードであることに注意してください。現在、多くの Web サイトでは文字化けを回避したい場合は、UTF-8 を再度エスケープする必要があります。 $content = mb_convert_encoding($content, 'UTF-8','GBK'); 読み取った内容は自分でコードを書くことで加工することができます。 pdftotext の主なパラメータ: オプション 次のオプションの多くは、構成ファイル com を使用して設定できます。 これらは角括弧内に説明とともにリストされています。 対応するコマンドラインオプション。 -f 番号 変換する最初のページを指定します。 -l 番号 変換する最後のページを指定します。 -レイアウト 元の物理レイアウトを(可能な限り)維持します。 デフォルトでは、物理的なレイアウト (列、 ハイフネーションなど) を入力し、読み上げ順にテキストを出力します。 -固定番号 指定された文字を持つ固定ピッチ (または表形式) テキストを想定します。 ter width (ポイント単位)。これにより、物理レイアウト モードが強制されます。 -raw テキストをコンテンツ ストリームの順序に保ちます。これはハックです。 列の書式設定などを「元に戻す」ことがよくあります。 raw モードの使用は禁止されています。 より長く推奨されます。 -htmlメタ メタ情報を含む単純な HTML ファイルを生成します。 これは単純にテキストを

 and 
でラップし、先頭に メタヘッダー。 -enc エンコーディング名


声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。