如何使用 Apache Tika 讀取 Zip 檔案中多種檔案類型的內容？-java教程-PHP中文網

如何使用 Apache Tika 讀取 Zip 檔案中多種檔案類型的內容？

如何使用 Apache Tika 讀取 Zip 檔案中多種檔案類型的內容？

Mary-Kate Olsen

Oct 28, 2024 pm 09:20 PM

How Do I Read Content from Multiple File Types Within a Zip Archive Using Apache Tika?

使用Apache Tika 實作從Zip 中的檔案讀取內容

挑戰：

您渴望寫一個Java 程式，使用Apache Tika 提取並讀取zip 檔案中多個檔案的內容。具體來說，您的 zip 檔案包含文字、PDF 和 docx 檔案的混合。

解決方案：

public class ZipContentExtractor {

    public static void main(String[] args) throws IOException, SAXException, TikaException {
        File zipFile = new File("C:\Users\xxx\Desktop\abc.zip");

        try (ZipInputStream zipInputStream = new ZipInputStream(new FileInputStream(zipFile))) {
            ZipEntry entry;
            while ((entry = zipInputStream.getNextEntry()) != null) {
                // Checking file types
                if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
                    // Handling text files
                    if (entry.getName().endsWith(".txt")) {
                        BodyContentHandler textHandler = new BodyContentHandler();
                        Parser parser = new AutoDetectParser();
                        parser.parse(zipInputStream, textHandler, new Metadata(), new ParseContext());
                        System.out.println("TXT file content: " + textHandler.toString());
                    }
                    // Handling PDF files
                    else if (entry.getName().endsWith(".pdf")) {
                        Metadata metadata = new Metadata();
                        Parser parser = new PDFParser();
                        parser.parse(zipInputStream, new StreamingContentHandler(), metadata, new ParseContext());
                        System.out.println("PDF file content: " + metadata.get("xmpDM:documentID"));
                    }
                    // Handling DOCX files
                    else {
                        BodyContentHandler textHandler = new BodyContentHandler();
                        Parser parser = new OOXMLParser();
                        parser.parse(zipInputStream, textHandler, new Metadata(), new ParseContext());
                        System.out.println("DOCX file content: " + textHandler.toString());
                    }
                }
            }
        }
    }
}

說明：

程式碼迭代。
對於每個條目，它檢查檔案類型並根據檔案副檔名進行適當處理。
對於文字文件，Apache Tika 的 AutoDetectParser 用於將內容解析為字串。
對於 PDF 文件，PDFParser 用於提取元數據，例如文件 ID。
對於 DOCX 文件， OOXMLParser 用於將內容解析為字串。

以上是如何使用 Apache Tika 讀取 Zip 檔案中多種檔案類型的內容？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

2025年的前4個JavaScript框架：React，Angular，Vue，Svelte

2025年的前4個JavaScript框架：React，Angular，Vue，SvelteMar 07, 2025 pm 06:09 PM

本文分析了2025年的前四個JavaScript框架（React，Angular，Vue，Susve），比較了它們的性能，可伸縮性和未來前景。儘管由於強大的社區和生態系統，所有這些都保持占主導地位，但它們的相對人口

如何使用咖啡因或Guava Cache等庫在Java應用程序中實現多層緩存？

如何使用咖啡因或Guava Cache等庫在Java應用程序中實現多層緩存？Mar 17, 2025 pm 05:44 PM

本文討論了使用咖啡因和Guava緩存在Java中實施多層緩存以提高應用程序性能。它涵蓋設置，集成和績效優勢，以及配置和驅逐政策管理最佳PRA

Node.js 20：關鍵性能提升和新功能

Node.js 20：關鍵性能提升和新功能Mar 07, 2025 pm 06:12 PM

Node.js 20通過V8發動機改進可顯著提高性能，特別是更快的垃圾收集和I/O。新功能包括更好的WebSembly支持和精製的調試工具，提高開發人員的生產率和應用速度。

Java的類負載機制如何起作用，包括不同的類載荷及其委託模型？

Java的類負載機制如何起作用，包括不同的類載荷及其委託模型？Mar 17, 2025 pm 05:35 PM

Java的類上載涉及使用帶有引導，擴展程序和應用程序類負載器的分層系統加載，鏈接和初始化類。父代授權模型確保首先加載核心類別，從而影響自定義類LOA

冰山：數據湖桌的未來

冰山：數據湖桌的未來Mar 07, 2025 pm 06:31 PM

冰山是用於大型分析數據集的開放式桌子格式，可提高數據湖的性能和可伸縮性。它通過內部元數據管理解決了鑲木quet/orc的局限

Spring Boot Snakeyaml 2.0 CVE-2022-1471問題已修復

Spring Boot Snakeyaml 2.0 CVE-2022-1471問題已修復Mar 07, 2025 pm 05:52 PM

本文介紹了SnakeyAml中的CVE-2022-1471漏洞，這是一個允許遠程代碼執行的關鍵缺陷。它詳細介紹瞭如何升級春季啟動應用程序到Snakeyaml 1.33或更高版本的降低風險，強調了依賴性更新

如何在Java中實施功能編程技術？

如何在Java中實施功能編程技術？Mar 11, 2025 pm 05:51 PM

本文使用lambda表達式，流API，方法參考和可選探索將功能編程集成到Java中。它突出顯示了通過簡潔性和不變性改善代碼可讀性和可維護性等好處

如何將Maven或Gradle用於高級Java項目管理，構建自動化和依賴性解決方案？

如何將Maven或Gradle用於高級Java項目管理，構建自動化和依賴性解決方案？Mar 17, 2025 pm 05:46 PM

本文討論了使用Maven和Gradle進行Java項目管理，構建自動化和依賴性解決方案，以比較其方法和優化策略。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

2 週前By尊渡假赌尊渡假赌尊渡假赌

倉庫：如何復興隊友

4 週前By尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island冒險：如何獲得巨型種子

3 週前By尊渡假赌尊渡假赌尊渡假赌

擊敗分裂小說需要多長時間？

3 週前ByDDD

R.E.P.O.保存文件位置：在哪里以及如何保護它？

3 週前ByDDD

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SublimeText3 英文版

SublimeText3 英文版

推薦：為Win版本，支援程式碼提示！

熱門話題

gmail信箱登陸入口在哪裡

7319

9

1625

14

1349

46

1261

25

1209

29