中国語を読む必要がない場合は、ここに行ってください。これで終わりです。必要に応じて続けましょう。
簡体字中国語のファイル add-to-xpdfrc の内容を /usr/local/etc/xpdfrc ファイルにコピーします。内部のパスは正しい必要があることに注意してください。 (ここでの簡体字中国語パッケージには ISO-2022-CN、EUC-CN、GBK の 3 つの形式が含まれていることに注意してください。UTF-8 はサポートされていないことをよく見てください。最初に GBK に変換してからエスケープできます) 3. 機能の実装 この時点で、すべての設定が完了したので、使用を開始します。 単純な PDF の読み取りの場合は、次のステートメントを使用するだけです。 $content = shell_exec('/usr/local/bin/pdftotext '.$ファイル名.' -'); 中国語に変換する必要がある場合は、次のようなパラメータを追加します。 $content = shell_exec('/usr/local/bin/pdftotext -layout -enc GBK '.$filename.' -'); もちろん、パラメータを追加しても英語変換には影響しませんので、安心してご利用ください。ここで転送されるのは GBK エンコードであることに注意してください。現在、多くの Web サイトでは文字化けを回避したい場合は、UTF-8 を再度エスケープする必要があります。 $content = mb_convert_encoding($content, 'UTF-8','GBK'); 読み取った内容は自分でコードを書くことで加工することができます。 pdftotext の主なパラメータ: オプション 次のオプションの多くは、構成ファイル com を使用して設定できます。 これらは角括弧内に説明とともにリストされています。 対応するコマンドラインオプション。 -f 番号 変換する最初のページを指定します。 -l 番号 変換する最後のページを指定します。 -レイアウト 元の物理レイアウトを(可能な限り)維持します。 デフォルトでは、物理的なレイアウト (列、 ハイフネーションなど) を入力し、読み上げ順にテキストを出力します。 -固定番号 指定された文字を持つ固定ピッチ (または表形式) テキストを想定します。 ter width (ポイント単位)。これにより、物理レイアウト モードが強制されます。 -raw テキストをコンテンツ ストリームの順序に保ちます。これはハックです。 列の書式設定などを「元に戻す」ことがよくあります。 raw モードの使用は禁止されています。 より長く推奨されます。 -htmlメタ メタ情報を含む単純な HTML ファイルを生成します。 これは単純にテキストを andでラップし、先頭に メタヘッダー。 -enc エンコーディング名 |