Rumah  >  Artikel  >  Java  >  Bagaimana untuk Mengekstrak Kandungan daripada Fail dalam Arkib Zip Menggunakan Java dan Apache Tika?

Bagaimana untuk Mengekstrak Kandungan daripada Fail dalam Arkib Zip Menggunakan Java dan Apache Tika?

DDD
DDDasal
2024-10-30 10:31:02614semak imbas

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Cara Membaca dan Mengekstrak Kandungan daripada Fail dalam Arkib Zip Menggunakan Java dan Apache Tika

Mencapai tugas membaca dan mengekstrak kandungan daripada fail dalam arkib zip menggunakan Java dan Apache Tika melibatkan beberapa langkah penting.

1. Mulakan Input

Mulakan dengan mencipta aliran input daripada fail untuk diproses:

<code class="java">InputStream input = new FileInputStream(file);</code>

2. Parse Zip Archive

Buat ZipInputStream untuk menghuraikan arkib zip dan mendapatkan ZipEntries individu:

<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>

3. Ekstrak Kandungan Berdasarkan Jenis Fail

Lelar melalui ZipEntries, mengenal pasti mereka yang mempunyai jenis fail yang disokong (cth., .txt, .pdf, .docx):

<code class="java">while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}</code>

4. Menghuraikan Kandungan Menggunakan Apache Tika

Gunakan Apache Tika untuk menghuraikan kandungan fail yang dikenal pasti:

<code class="java">BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());</code>

5. Ekstrak Kandungan Teks

Tukar kandungan yang dihuraikan kepada teks biasa untuk pemprosesan selanjutnya:

<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>

Kesimpulan

Dengan mengikuti langkah-langkah ini, anda boleh membaca dan mengekstrak kandungan dengan cekap daripada berbilang fail dalam arkib zip menggunakan Java dan Apache Tika. Fungsi ini amat berguna untuk memproses arkib yang mengandungi data teks atau berasaskan dokumen.

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Kandungan daripada Fail dalam Arkib Zip Menggunakan Java dan Apache Tika?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn