Maison  >  Article  >  Java  >  Comment extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika ?

Comment extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika ?

DDD
DDDoriginal
2024-10-30 10:31:02614parcourir

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Comment lire et extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika

Réaliser la tâche de lecture et d'extraction de contenu de Les fichiers dans une archive zip utilisant Java et Apache Tika impliquent quelques étapes clés.

1. Initialiser l'entrée

Commencez par créer un flux d'entrée à partir du fichier à traiter :

<code class="java">InputStream input = new FileInputStream(file);</code>

2. Parse Zip Archive

Créez un ZipInputStream pour analyser l'archive zip et obtenir des ZipEntries individuelles :

<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>

3. Extraire le contenu en fonction du type de fichier

Parcourir les ZipEntries, en identifiant celles dont les types de fichiers sont pris en charge (par exemple, .txt, .pdf, .docx) :

<code class="java">while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}</code>

4. Analyser le contenu à l'aide d'Apache Tika

Utilisez Apache Tika pour analyser le contenu des fichiers identifiés :

<code class="java">BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());</code>

5. Extraire le contenu textuel

Convertir le contenu analysé en texte brut pour un traitement ultérieur :

<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>

Conclusion

En suivant ces étapes, vous pouvez lire et extraire efficacement le contenu de plusieurs fichiers dans une archive zip à l'aide de Java et Apache Tika. Cette fonctionnalité est particulièrement utile pour traiter des archives contenant des données textuelles ou documentaires.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn