ホームページ >Java >＆＃＆チュートリアル >Apache Tika を使用して、ZIP アーカイブ内のさまざまなファイルタイプからコンテンツを抽出して処理するにはどうすればよいですか?

Apache Tika を使用して、ZIP アーカイブ内のさまざまなファイルタイプからコンテンツを抽出して処理するにはどうすればよいですか?

How can I use Apache Tika to extract and process content from different file types within a ZIP archive?

Apache Tika を使用して Zip アーカイブ内のファイルからコンテンツを読み取る

問題:
複数のファイルタイプのコンテンツを抽出して処理する ( .txt、.pdf、.docx) を Apache Tika を使用して ZIP アーカイブ内に保存します。

解決策:

1. ZipFile オブジェクトを作成します:
ZIP アーカイブを表す ZipFile オブジェクトをインスタンス化し、ZipEntry オブジェクトの列挙を取得します:

<code class="java">ZipFile zipFile = new ZipFile("C:/test.zip");
Enumeration<? extends ZipEntry> entries = zipFile.entries();</code>

2.エントリを反復処理します:
列挙内の各 ZipEntry をループします:

<code class="java">while (entries.hasMoreElements()) {
    ZipEntry entry = entries.nextElement();
}</code>

3.ファイルコンテンツの取得:
各 ZipEntry について、そのコンテンツへの InputStream を取得します:

<code class="java">InputStream stream = zipFile.getInputStream(entry);</code>

4. Apache Tika を使用したファイルコンテンツの解析:
Apache Tika を使用しているため、新しい Tika インスタンスを作成し、その解析メソッドを使用してファイルコンテンツを抽出します:

<code class="java">Tika tika = new Tika();
String content = tika.parseToString(stream);</code>

5 。抽出されたコンテンツの処理:

<code class="java">// Process your extracted content here...</code>

メモ:

以上がApache Tika を使用して、ZIP アーカイブ内のさまざまなファイルタイプからコンテンツを抽出して処理するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

続きを見る