Heim > Artikel > Backend-Entwicklung > So implementieren Sie die Dokumentenverarbeitung und Inhaltsanalyse mit PHP und Apache Tika
Mit der kontinuierlichen Weiterentwicklung der Unternehmensdigitalisierung steigen die Anforderungen an die Verarbeitung und Inhaltsanalyse verschiedener Dokumente. Dabei wird PHP als relativ weit verbreitete Server-Skriptsprache aufgrund seiner Benutzerfreundlichkeit und schnellen Entwicklung zunehmend anerkannt und geschätzt. Apache Tika hat als leistungsstarkes Tool zur Dokumentenverarbeitung und Inhaltsanalyse noch mehr Aufmerksamkeit auf sich gezogen. In diesem Artikel wird erläutert, wie Sie mit PHP und Apache Tika die Dokumentverarbeitung und Inhaltsanalyse implementieren.
1. Was ist Apache Tika?
Apache Tika ist ein Open-Source-Toolset für die Dokumentenverarbeitung und Inhaltsanalyse. Es kann Menschen dabei helfen, Text, Metadaten und andere Informationen aus verschiedenen Dokumenten zu extrahieren, und ist ein sehr leistungsfähiges Tool zur Inhaltsanalyse. Zu den unterstützten Dokumentformaten gehören: PDF, Word, Excel, PowerPoint, HTML, XML, PlainText usw. Gleichzeitig stellt Apache Tika auch APIs in verschiedenen Programmiersprachen bereit, darunter Java, Python, Ruby, .NET usw. In diesem Artikel wird hauptsächlich die Verwendung von PHP und Apache Tika zur Implementierung der Dokumentverarbeitung und Inhaltsanalyse vorgestellt. Es gibt zwei Möglichkeiten, Apache Tika zu installieren:
1. Laden Sie die Apache Tika-Binärdatei herunter.
Offizielle Website-Adresse: https://tika.apache.org/download.html
Entpacken Sie es nach dem Herunterladen in ein Verzeichnis, z. B. das Verzeichnis „/opt/tika“.
2. Verwenden Sie Maven zur Installation.
Der einfachste Weg, Apache Tika über Maven zu installieren, ist über eine gültige pom.xml-Konfigurationsdatei, deren Inhalt wie folgt lautet:
ab3cb675d9286761e5f198592921f93d
< ;project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>org.apache.tika</groupId> <artifactId>tika-parsers</artifactId> <version>1.26</version>
1755c7176d4002e2a322de4f48c796fa
2. Wie rufe ich Apache Tika für die Dokumentenverarbeitung und Inhaltsanalyse auf?
Tika ist in Java geschrieben, daher erfordert der Aufruf von Tika mit PHP normalerweise die Verwendung einer Java-Bridge. Es gibt zwei Möglichkeiten, PHP und Java zu überbrücken:
1. Verwenden Sie die PHP-Java Bridge.
PHP-Java Bridge bietet eine PHP-Erweiterung, die es PHP-Programmen ermöglicht, Java-APIs aufzurufen. Es sendet die Nachricht über das HTTP-Protokoll an den Java Bridge-Server und leitet sie dann an die Java VM weiter. Nachdem das Java-Programm geantwortet hat, wird das Ergebnis an den PHP-Java Bridge-Server zurückgegeben, und der Server gibt das Ergebnis an den Server zurück PHP-Programm. Dies ist das grundlegende Funktionsprinzip der PHP-Java Bridge.
2. Verwenden Sie die Datei JavaBridge.php zum Bridging.
Die Datei JavaBridge.php kommuniziert auch mit der Java VM über das HTTP-Protokoll. Die Datei JavaBridge.php erfordert keine zusätzlichen PHP-Erweiterungen und ist bequemer zu verwenden.
So verwenden Sie PHP-Java Bridge:
1. Laden Sie PHP-Java Bridge herunter.
Offizielle Website-Adresse: http://www.php-java-bridge.org/
2 Entpacken und installieren Sie PHP-Java Bridge.
Entpacken und kopieren Sie den dekomprimierten Ordner in das Webverzeichnis des Servers, beispielsweise in das Verzeichnis „/var/www/html/JavaBridge“.
3. Starten Sie den Java Bridge-Server.
Führen Sie den folgenden Befehl aus, um den Java Bridge-Server zu starten:
cd /var/www/html/JavaBridge/
sudo ./php-java-bridge-7.0.0.jar start
Nach erfolgreichem Start wird angezeigt die folgenden Informationen:
[INFO - 2017-08-07T01:47:23.727000Z] php.java.bridge.AbstractJavaBridge.init() php.java.bridge.version = 7.0.0
[INFO - 2017-08- 07T01:47 :23.732000Z] php.java.bridge.AbstractJavaBridge.init() php.java.bridge.home = /home/user/projects/php-java-bridge
[...]
4 PHP-Programm Tika.
Fügen Sie im PHP-Programm die Datei JavaBridge.php ein und verwenden Sie Java Bridge, um ein Java-Objekt zu erstellen. Der Beispielcode lautet wie folgt:
require_once('/var/www/html/JavaBridge/java/Java.inc');
// Erstellen Sie ein neues Tika-Objekt
$tika = new Java('org.apache. tika.Tika' );
// Dokumentinhalt analysieren
$content = $tika->parseToString(new Java('java.io.File', '/path/to/document.pdf'));
Der obige Code gibt den Inhalt des analysierten Dokuments aus.
So überbrücken Sie die Datei JavaBridge.php:
1 Laden Sie JavaBridge.jar herunter.
Offizielle Website-Adresse: http://php-java-bridge.sourceforge.net/pjb/download.html
2 Kopieren Sie JavaBridge.jar in das Verzeichnis server/lib im Tika-Dekomprimierungsverzeichnis.
3. Rufen Sie Tika im PHP-Programm auf.
Fügen Sie im PHP-Programm die Datei JavaBridge.php ein und verwenden Sie Java Bridge, um ein Java-Objekt zu erstellen. Der Beispielcode lautet wie folgt:
require_once('/path/to/JavaBridge.php');
// Neues Tika-Objekt erstellen
$tika = new Java('org.apache.tika.Tika');
// Dokumentinhalt analysieren
$content = $tika->parseToString(new Java('java.io.File', '/path/to/document.pdf'));
Der obige Code druckt die analysierter Dokumentinhalt.
3. Wie implementiert man Dokumentenverarbeitung und Inhaltsanalyse?
1. Dokumentinformationen abrufen.
Zuerst müssen Sie die Dokumentinformationen abrufen, einschließlich Dokumenttyp, Größe, Erstellungsdatum, Änderungsdatum usw. Im Folgenden finden Sie einen Beispielcode zum Abrufen des Dokumenttyps:
$type = $tika->detect(new Java('java.io.File', '/path/to/document.pdf'));
Im Folgenden erhalten Sie einen Beispielcode für die Dokumentgröße:
$size = (new Java('java.io.File', '/path/to/document.pdf'))->length();
The Im Folgenden erhalten Sie Beispielcode für das Erstellungsdatum und das Änderungsdatum des Dokuments:
$metadata = $tika->parseMetaData(new Java('java.io.File', '/path/to/document.pdf'));
echo "创建日期:" . $metadata->get('Creation-Date') . "
";
echo "修改日期:" . $metadata->get('Modify-Date') . "
";
2.提取文本内容。
使用Tika提取文档的文本内容非常简单,只需要将文档文件的路径传递给parseToString()方法即可。以下是代码示例:
$content = $tika->parseToString(new Java('java.io.File', '/path/to/document.pdf'));
3.提取标签信息。
使用Tika提取文档的标签信息也非常容易,只需要传递一个参数给parseToString()方法。以下是代码示例:
$content = $tika->parseToString(new Java('java.io.File', '/path/to/document.pdf'),
new Java('org.apache.tika.parser.html.HtmlMapper'));
4.提取元数据信息。
使用Tika提取文档的元数据非常容易,只需要调用Tika的parseMetaData()方法即可。以下是代码示例:
$metadata = $tika->parseMetaData(new Java('java.io.File', '/path/to/document.pdf'));
echo "标题:" . $metadata->get('title') . "
";
echo "作者:" . $metadata->get('creator') . "
";
echo "关键字:" . $metadata->get('keywords') . "
";
echo "主题:" . $metadata->get('subject') . "
";
5.生成HTML、XML、JSON等格式的文档。
使用Tika生成HTML、XML、JSON等格式的文档非常容易,在生成时只需要指定输出格式即可。以下是代码示例:
$html = $tika->parseToString(new Java('java.io.File', '/path/to/document.pdf'),
new Java('org.apache.tika.parser.html.HtmlMapper'));
$xml = $tika->parseToString(new Java('java.io.File', '/path/to/document.pdf'),
new Java('org.apache.tika.parser.xml.XMLResult'));
$json = $tika->parseToString(new Java('java.io.File', '/path/to/document.pdf'),
new Java('org.apache.tika.parser.JSON.JSONResult'));
总结:
本文介绍了使用PHP和Apache Tika实现文档处理和内容分析的方法。通过调用Tika的API,可以轻松地从各种文档中提取文本、元数据、标签等信息,并生成HTML、XML、JSON等格式的文档。这种方式充分利用了PHP和Tika的优势,让人们能够更加快速、高效地处理和分析文档内容。
Das obige ist der detaillierte Inhalt vonSo implementieren Sie die Dokumentenverarbeitung und Inhaltsanalyse mit PHP und Apache Tika. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!