Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk mengekstrak teks daripada Word, Excel, dan Fail PowerPoint dalam PHP?

Bagaimana untuk mengekstrak teks daripada Word, Excel, dan Fail PowerPoint dalam PHP?

Linda Hamilton
Linda Hamiltonasal
2024-11-17 14:15:02544semak imbas

How to Extract Text from Word, Excel, and PowerPoint Files in PHP?

Cara Mengekstrak Teks daripada Fail Word .doc, .docx, .xlsx, .pptx dalam PHP

Mengekstrak teks daripada dokumen Word yang dimuat naik adalah penting untuk tugas seperti mencari dalam dokumen, terutamanya dalam senario yang melibatkan CV/resume. Artikel ini menyediakan penyelesaian menyeluruh untuk masalah biasa ini.

Pengeluaran Fail Doc/Docx

Fail Doc/Docx ialah gumpalan binari. Untuk fail .doc, anda boleh menggunakan fungsi fopen, manakala untuk fail .docx, anda boleh menggunakan fungsi zip_open. Ini kerana fail docx pada asasnya ialah fail ZIP yang mengandungi fail XML.

Excel File Extraction

Untuk mengekstrak teks daripada fail XLSX, kami menumpukan pada fail XML tertentu, xl/sharedStrings.xml. Kami mengekstrak kandungan daripada fail ini dan menanggalkan teg HTML untuk teks biasa.

Pengeluaran Fail PowerPoint

Fail PPTX mengikut pendekatan yang sama. Kami mengulangi fail XML slaid, mengekstrak dan menggabungkan kandungannya.

Pelaksanaan Kelas

Kami menyediakan kelas PHP bernama DocxConversion yang merangkumi pengekstrakan ini kaedah. Kelas menerima laluan fail sebagai hujah dan mempunyai fungsi berikut:

  • read_doc(): Mengendalikan pengekstrakan fail .doc.
  • read_docx (): Mengendalikan pengekstrakan fail .docx.
  • xlsx_to_text(): Mengendalikan pengekstrakan fail .xlsx.
  • pptx_to_text(): Mengendalikan pengekstrakan fail .pptx.
  • convertToText(): Memilih kaedah pengekstrakan yang sesuai berdasarkan sambungan fail.

Penggunaan

Untuk menggunakan kelas ini, nyatakannya dengan laluan fail dan panggil kaedah convertToText(). Kaedah ini mengembalikan teks yang diekstrak sebagai rentetan.

Contoh:

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;

Skrip ini akan mengekstrak teks daripada fail .docx yang ditentukan dan memaparkannya.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks daripada Word, Excel, dan Fail PowerPoint dalam PHP?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn