問題:
複数のファイル タイプのコンテンツを抽出して処理する ( .txt、.pdf、.docx) を Apache Tika を使用して ZIP アーカイブ内に保存します。
解決策:
1. ZipFile オブジェクトを作成します:
ZIP アーカイブを表す ZipFile オブジェクトをインスタンス化し、ZipEntry オブジェクトの列挙を取得します:
<code class="java">ZipFile zipFile = new ZipFile("C:/test.zip"); Enumeration<? extends ZipEntry> entries = zipFile.entries();</code>
2.エントリを反復処理します:
列挙内の各 ZipEntry をループします:
<code class="java">while (entries.hasMoreElements()) { ZipEntry entry = entries.nextElement(); }</code>
3.ファイル コンテンツの取得:
各 ZipEntry について、そのコンテンツへの InputStream を取得します:
<code class="java">InputStream stream = zipFile.getInputStream(entry);</code>
4. Apache Tika を使用したファイル コンテンツの解析:
Apache Tika を使用しているため、新しい Tika インスタンスを作成し、その解析メソッドを使用してファイル コンテンツを抽出します:
<code class="java">Tika tika = new Tika(); String content = tika.parseToString(stream);</code>
5 。抽出されたコンテンツの処理:
<code class="java">// Process your extracted content here...</code>
メモ:
以上がApache Tika を使用して、ZIP アーカイブ内のさまざまなファイル タイプからコンテンツを抽出して処理するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。