문제:
여러 파일 형식의 콘텐츠를 추출하고 처리합니다( .txt, .pdf, .docx)를 Apache Tika를 사용하여 ZIP 아카이브 내에서.
해결책:
1. ZipFile 객체 생성:
ZIP 아카이브를 나타내는 ZipFile 객체를 인스턴스화하고 ZipEntry 객체 열거를 얻습니다.
<code class="java">ZipFile zipFile = new ZipFile("C:/test.zip"); Enumeration<? extends ZipEntry> entries = zipFile.entries();</code>
2. 항목 반복:
열거의 각 ZipEntry 반복:
<code class="java">while (entries.hasMoreElements()) { ZipEntry entry = entries.nextElement(); }</code>
3. 파일 콘텐츠 가져오기:
각 ZipEntry에 대해 해당 콘텐츠에 대한 InputStream을 가져옵니다.
<code class="java">InputStream stream = zipFile.getInputStream(entry);</code>
4. Apache Tika를 사용하여 파일 콘텐츠 구문 분석:
Apache Tika를 사용하고 있으므로 새 Tika 인스턴스를 생성하고 구문 분석 방법을 사용하여 파일 콘텐츠를 추출합니다.
<code class="java">Tika tika = new Tika(); String content = tika.parseToString(stream);</code>
5 . 추출된 콘텐츠 처리:
<code class="java">// Process your extracted content here...</code>
참고:
위 내용은 Apache Tika를 사용하여 ZIP 아카이브 내의 다양한 파일 형식에서 콘텐츠를 추출하고 처리하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!