ホームページ  >  記事  >  Java  >  Apache Tika を使用して、ZIP アーカイブ内のさまざまなファイル タイプからコンテンツを抽出して処理するにはどうすればよいですか?

Apache Tika を使用して、ZIP アーカイブ内のさまざまなファイル タイプからコンテンツを抽出して処理するにはどうすればよいですか?

DDD
DDDオリジナル
2024-11-01 13:34:29560ブラウズ

How can I use Apache Tika to extract and process content from different file types within a ZIP archive?

Apache Tika を使用して Zip アーカイブ内のファイルからコンテンツを読み取る

問題:
複数のファイル タイプのコンテンツを抽出して処理する ( .txt、.pdf、.docx) を Apache Tika を使用して ZIP アーカイブ内に保存します。

解決策:

1. ZipFile オブジェクトを作成します:
ZIP アーカイブを表す ZipFile オブジェクトをインスタンス化し、ZipEntry オブジェクトの列挙を取得します:

<code class="java">ZipFile zipFile = new ZipFile("C:/test.zip");
Enumeration<? extends ZipEntry> entries = zipFile.entries();</code>

2.エントリを反復処理します:
列挙内の各 ZipEntry をループします:

<code class="java">while (entries.hasMoreElements()) {
    ZipEntry entry = entries.nextElement();
}</code>

3.ファイル コンテンツの取得:
各 ZipEntry について、そのコンテンツへの InputStream を取得します:

<code class="java">InputStream stream = zipFile.getInputStream(entry);</code>

4. Apache Tika を使用したファイル コンテンツの解析:
Apache Tika を使用しているため、新しい Tika インスタンスを作成し、その解析メソッドを使用してファイル コンテンツを抽出します:

<code class="java">Tika tika = new Tika();
String content = tika.parseToString(stream);</code>

5 。抽出されたコンテンツの処理:

<code class="java">// Process your extracted content here...</code>

メモ:

  • このアプローチを使用すると、Apache Tika でサポートされているすべてのファイル タイプのコンテンツを読み取ることができます。 .
  • ファイル処理中に発生する可能性のある例外を必ず処理してください。

以上がApache Tika を使用して、ZIP アーカイブ内のさまざまなファイル タイプからコンテンツを抽出して処理するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。