Rumah  >  Artikel  >  Java  >  Bagaimanakah Saya Membaca Kandungan daripada Pelbagai Jenis Fail Dalam Arkib Zip Menggunakan Apache Tika?

Bagaimanakah Saya Membaca Kandungan daripada Pelbagai Jenis Fail Dalam Arkib Zip Menggunakan Apache Tika?

Mary-Kate Olsen
Mary-Kate Olsenasal
2024-10-28 21:20:30715semak imbas

How Do I Read Content from Multiple File Types Within a Zip Archive Using Apache Tika?

Membaca Kandungan daripada Fail Dalam Zip Dicapai dengan Apache Tika

Cabaran:

Anda bercita-cita untuk menulis program Java yang mengekstrak dan membaca kandungan berbilang fail dalam arkib zip menggunakan Apache Tika. Khususnya, fail zip anda mengandungi gabungan fail teks, PDF dan docx.

Penyelesaian:

public class ZipContentExtractor {

    public static void main(String[] args) throws IOException, SAXException, TikaException {
        File zipFile = new File("C:\Users\xxx\Desktop\abc.zip");

        try (ZipInputStream zipInputStream = new ZipInputStream(new FileInputStream(zipFile))) {
            ZipEntry entry;
            while ((entry = zipInputStream.getNextEntry()) != null) {
                // Checking file types
                if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
                    // Handling text files
                    if (entry.getName().endsWith(".txt")) {
                        BodyContentHandler textHandler = new BodyContentHandler();
                        Parser parser = new AutoDetectParser();
                        parser.parse(zipInputStream, textHandler, new Metadata(), new ParseContext());
                        System.out.println("TXT file content: " + textHandler.toString());
                    }
                    // Handling PDF files
                    else if (entry.getName().endsWith(".pdf")) {
                        Metadata metadata = new Metadata();
                        Parser parser = new PDFParser();
                        parser.parse(zipInputStream, new StreamingContentHandler(), metadata, new ParseContext());
                        System.out.println("PDF file content: " + metadata.get("xmpDM:documentID"));
                    }
                    // Handling DOCX files
                    else {
                        BodyContentHandler textHandler = new BodyContentHandler();
                        Parser parser = new OOXMLParser();
                        parser.parse(zipInputStream, textHandler, new Metadata(), new ParseContext());
                        System.out.println("DOCX file content: " + textHandler.toString());
                    }
                }
            }
        }
    }
}

Penjelasan:

  • Kod ini berulang melalui entri dalam fail zip.
  • Untuk setiap entri, ia menyemak jenis fail dan mengendalikannya dengan sewajarnya berdasarkan sambungan fail.
  • Untuk fail teks, AutoDetectParser Apache Tika digunakan untuk menghuraikan kandungan ke dalam String.
  • Untuk fail PDF, PDFParser digunakan untuk mengekstrak metadata, seperti ID dokumen.
  • Untuk fail DOCX, OOXMLParser digunakan untuk menghuraikan kandungan ke dalam String.

Atas ialah kandungan terperinci Bagaimanakah Saya Membaca Kandungan daripada Pelbagai Jenis Fail Dalam Arkib Zip Menggunakan Apache Tika?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn