Problem:
Inhalte mehrerer Dateitypen extrahieren und verarbeiten ( .txt, .pdf, .docx) in einem ZIP-Archiv mit Apache Tika.
Lösung:
1. Erstellen Sie ein ZipFile-Objekt:
Instanziieren Sie ein ZipFile-Objekt, um das ZIP-Archiv darzustellen und erhalten Sie eine Enumeration von ZipEntry-Objekten:
<code class="java">ZipFile zipFile = new ZipFile("C:/test.zip"); Enumeration<? extends ZipEntry> entries = zipFile.entries();</code>
2. Durch Einträge iterieren:
Durchlaufen Sie jeden ZipEntry in der Aufzählung:
<code class="java">while (entries.hasMoreElements()) { ZipEntry entry = entries.nextElement(); }</code>
3. Dateiinhalt abrufen:
Für jeden ZipEntry einen InputStream zu seinem Inhalt abrufen:
<code class="java">InputStream stream = zipFile.getInputStream(entry);</code>
4. Dateiinhalt mit Apache Tika analysieren:
Da Sie Apache Tika verwenden, erstellen Sie eine neue Tika-Instanz und verwenden Sie deren Parsing-Methoden, um den Dateiinhalt zu extrahieren:
<code class="java">Tika tika = new Tika(); String content = tika.parseToString(stream);</code>
5 . Extrahierten Inhalt verarbeiten:
<code class="java">// Process your extracted content here...</code>
Hinweise:
Das obige ist der detaillierte Inhalt vonWie kann ich mit Apache Tika Inhalte aus verschiedenen Dateitypen innerhalb eines ZIP-Archivs extrahieren und verarbeiten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!