>Java >java지도 시간 >Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?

Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?

DDD
DDD원래의
2024-10-30 10:31:02743검색

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 읽고 추출하는 방법

Zip 아카이브에서 콘텐츠를 읽고 추출하는 작업 수행 Java 및 Apache Tika를 사용하여 zip 아카이브 내의 파일을 저장하려면 몇 가지 주요 단계가 필요합니다.

1. 입력 초기화

처리할 파일에서 입력 스트림을 생성하여 시작합니다.

<code class="java">InputStream input = new FileInputStream(file);</code>

2. Zip 아카이브 구문 분석

Zip 아카이브를 구문 분석하고 개별 ZipEntries를 얻기 위해 ZipInputStream을 생성합니다:

<code class="java">ZipInputStream zip = new ZipInputStream(input);</code>

3. 파일 형식을 기준으로 콘텐츠 추출

ZipEntries를 반복하여 지원되는 파일 형식(예: .txt, .pdf, .docx)을 식별합니다.

<code class="java">while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}</code>

4. Apache Tika를 사용하여 콘텐츠 구문 분석

Apache Tika를 사용하여 식별된 파일의 콘텐츠를 구문 분석합니다.

<code class="java">BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());</code>

5. 텍스트 콘텐츠 추출

추가 처리를 위해 구문 분석된 콘텐츠를 일반 텍스트로 변환합니다.

<code class="java">System.out.println("Apache Tika - Converted input string : " + textHandler.toString());</code>

결론

다음 단계를 따르면, Java 및 Apache Tika를 사용하여 zip 아카이브 내의 여러 파일에서 콘텐츠를 효율적으로 읽고 추출할 수 있습니다. 이 기능은 텍스트 또는 문서 기반 데이터가 포함된 아카이브를 처리하는 데 특히 유용합니다.

위 내용은 Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.