Java と Apache Tika を使用して Zip アーカイブ内のファイルからコンテンツを読み取って抽出する方法
コンテンツを読み取って抽出するタスクの実行Java と Apache Tika を使用して zip アーカイブ内のファイルを作成するには、いくつかの重要な手順が必要です。
1.入力の初期化
まず、処理対象のファイルから入力ストリームを作成します。
<code class="java">InputStream input = new FileInputStream(file);</code>
2. Zip アーカイブを解析する
Zip アーカイブを解析し、個々の ZipEntries を取得するための ZipInputStream を作成します:
<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>
3.ファイル タイプに基づいてコンテンツを抽出
ZipEntries を反復処理し、サポートされているファイル タイプ (.txt、.pdf、.docx など) を持つものを特定します:
<code class="java">while (entry != null) { if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) { // Process the file } entry = zip.getNextEntry(); }</code>
4. Apache Tika を使用したコンテンツの解析
Apache Tika を使用して、特定されたファイルのコンテンツを解析します:
<code class="java">BodyContentHandler textHandler = new BodyContentHandler(); Metadata metadata = new Metadata(); Parser parser = new AutoDetectParser(); parser.parse(input, textHandler, metadata, new ParseContext());</code>
5.テキスト コンテンツの抽出
さらに処理するために、解析されたコンテンツをプレーン テキストに変換します。
<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>
結論
次の手順に従って、 Java と Apache Tika を使用すると、zip アーカイブ内の複数のファイルからコンテンツを効率的に読み取り、抽出できます。この機能は、テキストまたはドキュメントベースのデータを含むアーカイブを処理する場合に特に役立ちます。
以上がJava と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

メモ帳++7.3.1
使いやすく無料のコードエディター

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ドリームウィーバー CS6
ビジュアル Web 開発ツール
