Heim >Java >javaLernprogramm >Wie extrahiere ich Inhalte aus Dateien in einem ZIP-Archiv mit Apache Tika?
Inhalte aus Dateien in einem Zip-Archiv mit Apache Tika extrahieren
Um Ihre Anforderung zum Lesen und Extrahieren von Inhalten aus Dateien in einem Zip-Archiv mit zu erfüllen Apache Tika, Sie müssen einige Anpassungen an Ihrem aktuellen Code vornehmen. Obwohl Ihr Ansatz weitgehend richtig ist, besteht das Problem darin, den InputStream für jede Datei in der ZIP-Datei zu erhalten.
Hier ist eine aktualisierte Version Ihres Codes, die dieses Problem behebt:
<code class="java">import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.util.ArrayList; import java.util.List; import java.util.zip.ZipEntry; import java.util.zip.ZipFile; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.AutoDetectParser; import org.apache.tika.parser.BodyContentHandler; import org.apache.tika.parser.ParseContext; import org.xml.sax.SAXException; public class SampleZipExtractNew { public static void main(String[] args) throws IOException { List<String> tempString = new ArrayList<>(); StringBuffer sbf = new StringBuffer(); File file = new File("C:\Users\xxx\Desktop\abc.zip"); ZipFile zipFile = new ZipFile(file); Enumeration<? extends ZipEntry> entries = zipFile.entries(); BodyContentHandler textHandler = new BodyContentHandler(); Metadata metadata = new Metadata(); Parser parser = new AutoDetectParser(); while (entries.hasMoreElements()) { ZipEntry entry = entries.nextElement(); try (InputStream inputStream = zipFile.getInputStream(entry)) { if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) { parser.parse(inputStream, textHandler, metadata, new ParseContext()); tempString.add(textHandler.toString()); } } } for (String text : tempString) { System.out.println("Apache Tika - Converted input string : " + text); sbf.append(text); System.out.println("Final text from all the three files " + sbf.toString()); } } }</code>
In dieser Überarbeitung Code:
Das obige ist der detaillierte Inhalt vonWie extrahiere ich Inhalte aus Dateien in einem ZIP-Archiv mit Apache Tika?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!