Heim >Web-Frontend >Front-End-Fragen und Antworten >Wie konvertiert man PDF in HTML? Kurze Analyse der Methoden

Wie konvertiert man PDF in HTML? Kurze Analyse der Methoden

PHPz
PHPzOriginal
2023-04-21 11:27:431019Durchsuche

Mit dem Aufkommen des digitalen Zeitalters werden immer mehr Informationen digitalisiert, wobei PDF-Dokumente am weitesten verbreitet sind. Obwohl PDF-Dokumente große Vorteile bei der plattformübergreifenden Standardisierung und Formatierung bieten, werden sie bei der Anzeige und Suche von Webseiten auf große Schwierigkeiten stoßen. Daher ist die Konvertierung von PDF-Dokumenten in das HTML-Format zu einer notwendigen Aufgabe geworden, um die Anzeige und Weitergabe von PDF-Dokumenten im Internet zu erleichtern.

Als weit verbreitete Programmiersprache bietet Java viele Anwendungsprogrammschnittstellen (APIs) zum Konvertieren von PDF in HTML. In diesem Artikel werden die Java-APIs zum Konvertieren von PDF in HTML vorgestellt und verglichen. Außerdem werden PDFBox, iText und Apache FOP verwendet Ein Beispiel, das detailliert erklärt, wie diese Bibliotheken zum Konvertieren von PDF in HTML verwendet werden.

1. Die Notwendigkeit, PDF in HTML zu konvertieren

Mit der Entwicklung der Internetkultur sind Webanwendungen immer mehr zu einem unverzichtbaren Bestandteil unseres Lebens geworden, und die Konvertierung von PDF in das HTML-Format ist offensichtlich zu einer notwendigen Voraussetzung für Webanwendungen geworden das Programm. Hier sind die Hauptanforderungen:

  1. Durchsuchbarkeit: Dateien im PDF-Format verfügen nicht über die Funktion der Textdurchsuchbarkeit, aber die Verwendung des PDF-zu-HTML-Tools kann den PDF-Inhalt in das HTML-Format konvertieren, was die Durchsuchbarkeit des Textes erheblich verbessert.
  2. Nachdrucken und herunterladen: HTML wird häufig zum Teilen von Dokumenten im Web verwendet, sodass andere Ihre Dokumente jederzeit anzeigen und herunterladen können. Die Konvertierung von PDF in das HTML-Format ist einfacher und benutzerfreundlicher.
  3. Bearbeitbarkeit: Einige PDF-Dateien, die bearbeitet werden müssen, können nach der Konvertierung in das HTML-Format problemlos mit einem HTML-Editor bearbeitet werden, um die Zusammenarbeit zu erleichtern.

2. Vergleich von PDF-zu-HTML-Tools

PDF-zu-HTML-Tools können basierend auf den folgenden drei häufig verwendeten Frameworks implementiert werden:

  1. Apache PDFBox: ist eine Java-basierte Bibliothek, die zur Verarbeitung von PDF-Originaldateien verwendet wird. Es kann zum Extrahieren von Text- und Grafikobjekten, zum Übersetzen einiger spezifischer Tags in PDF, zum Einfügen und Löschen von Seiten usw. verwendet werden.
  2. iText: ist eine Open-Source-PDF-Bibliothek, die mit Java entwickelt wurde. Es kann zum Extrahieren oder Erstellen neuer Dokumente aus vorhandenen PDF-Dateien verwendet werden. Mit iText können auch erweiterte Formate für PDF-Dateien generiert werden.
  3. Apache FOP: ist eine Open-Source-Java-Anwendung zum Konvertieren von Daten im XML-Format in PDF-Dateien. FOP kann XSL-FO-Dateien in PDF-Dateien konvertieren, Unicode und Rechts-nach-Links-Text unterstützen, Seiten einfügen und verschieben usw.

3. PDFBox

Apache PDFBox ist eine Open-Source-Java-Bibliothek zum Betrieb von PDF-Dateien. In PDFBox wird PDF als einfacher Text gespeichert, PDFBox analysiert das PDF im Speicher und rendert es dann als einfacher Text. Da PDFBox keine komplexen Formate und Layouts unterstützt, ist es nicht für die Verarbeitung großer, komplexer PDF-Dateien geeignet. Allerdings unterstützt PDFBox den Export von Schriftarten, Farben, Hintergründen, Tabellen und Links, sodass die Konvertierung von PDF in HTML einfach ist.

Codebeispiel für PDFBox:

import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class PDFtoHTML {
    public static void main(String[] args) throws IOException {
        PDDocument document = null;
        try {
            document = PDDocument.load(file);
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);
            System.out.println(text);
        } finally {
            if (document != null) {
                document.close();
            }
        }
    }
}

In diesem Beispielcode wird die PDFTextStripper-Klasse verwendet, um einfachen Text aus einer PDF-Datei zu extrahieren. Auf dieser Basis können Sie auch PDF-Elemente wie Schriftarten, Farben, Hintergründe, Tabellen und Links exportieren, indem Sie weitere Codes hinzufügen.

4. iText

iText ist eine kostenlose, aber kommerzielle Komponenten-Java-PDF-Bibliothek, die die Erstellung, Änderung und Extraktion verschiedener PDF-Dateien unterstützt. iText hat viele PDF-Konvertierungstools entwickelt, darunter auch die Konvertierung von PDF-Dateien in HTML.

Um PDF-Dateien in HTML zu konvertieren, können Sie die von iText bereitgestellten HTMLWorker-Klassen und XMLWorker-Klassen verwenden. Die HTMLWorker-Klasse stellt einen HTMLWriter bereit, der Text, Absätze, Listen und andere HTML-Elemente aus PDF-Dokumenten extrahieren und konvertieren kann. Die XMLWorker-Klasse bietet eine flexiblere Möglichkeit, XML-Dateien, einschließlich HTML-Dateien, zu verarbeiten.

Da iText Text direkt aus PDF lesen und in einer HTML-Datei speichern kann, ist der Konvertierungsprozess sehr einfach. Es bietet jedoch nur eine sehr gute Unterstützung für grundlegende Formatierungen und Schriftsätze und eine schlechte Unterstützung für PDF-Dateien, die komplex sind und komplexe Vorgänge erfordern.

Codebeispiel für iText:

import java.io.File;
import java.io.FileOutputStream;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
public class PDFtoHTML 
{
    public static void main( String[] args )
    {
        try {
            String inputurl="pdf/demo.pdf";
            String outputurl="html/demo.html";
            File file=new File(outputurl);
            if(!file.exists()){
                file.createNewFile();
            }
            PdfReader reader=new PdfReader(inputurl);
            int totalpages=reader.getNumberOfPages();
            StringBuffer buffer=new StringBuffer();
            for(int i=1;i<=totalpages;i++){
                buffer.append(PdfTextExtractor.getTextFromPage(reader,i));
            }
            FileOutputStream fos=new FileOutputStream(outputurl);
            fos.write(buffer.toString().getBytes());
            fos.flush();
            fos.close();
            reader.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

In diesem Beispielcode wird die PdfReader-Klasse verwendet, um Text aus einer PDF-Datei zu extrahieren und den Text dann direkt in einer HTML-Datei zu speichern.

5. Apache FOP

Apache FOP ist eine Java-Anwendung zum Generieren von PDF-Dateien. Sie kann XSL-FO-Dateien in PDF-Dateien konvertieren. Als weitere Option zur Konvertierung von PDF in HTML bietet Apache FOP auch die Funktion zur Konvertierung von HTML-Dateien in PDF-Dateien.

Da Apache FOP eine gute Unterstützung für HTML und XML bietet, können Sie PDF bei der Konvertierung in HTML zuerst in XML konvertieren und dann Apache FOP verwenden, um es in HTML zu konvertieren. Da XML ein einfaches, strukturiertes Textformat ist, ist es sehr einfach, XML mit einem Java-Parser zu analysieren und in HTML zu konvertieren. Die Verwendung von Apache FOP zur Verarbeitung von PDF in HTML erfordert jedoch häufig eine komplexere Konfiguration und Installation, um optimale Ergebnisse zu erzielen.

Codebeispiel für Apache FOP:

import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStream;
import javax.xml.transform.Result;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.sax.SAXResult;
import javax.xml.transform.stream.StreamSource;
import org.apache.fop.apps.FOUserAgent;
import org.apache.fop.apps.Fop;
import org.apache.fop.apps.FopFactory;
import org.apache.fop.apps.MimeConstants;
 
public class PDFtoHTML {
    public static void main(String[] args) throws Exception {
        File xsltFile = new File("myXslt.xslt");
        File xmlFile = new File("myXml.xml");
        File htmlFile = new File("myHtml.html");
        FopFactory fopFactory = FopFactory.newInstance();
        FOUserAgent foUserAgent = fopFactory.newFOUserAgent();
        OutputStream out = new FileOutputStream(htmlFile);
        try {
            Fop fop = fopFactory.newFop(MimeConstants.MIME_HTML, foUserAgent, out);
            TransformerFactory factory = TransformerFactory.newInstance();
            Transformer transformer = factory.newTransformer(new StreamSource(xsltFile));
            Result res = new SAXResult(fop.getDefaultHandler());
            transformer.transform(new StreamSource(xmlFile), res);
        } finally {
            out.close();
        }
    }
}

In diesem Beispiel wird FopFactory verwendet, um eine Fop-Instanz zu öffnen, die XML-Eingabe in PDF zu konvertieren und dann die HTML-Datei zu generieren. Während des Konvertierungsprozesses können Sie auch ein XSL-Stylesheet verwenden, um die HTML-Ausgabe zu steuern.

6. Fazit

In diesem Artikel werden das Hauptframework und die zugehörigen APIs zum Konvertieren von PDF in HTML mithilfe von Java vorgestellt, einschließlich PDFBox, iText und Apache FOP. In der Praxis erfordert die Auswahl einer Bibliothek, die zu Ihnen passt, eine umfassende Überlegung auf der Grundlage Ihrer eigenen Bedürfnisse. Wenn Sie Text einzeln extrahieren müssen, ist PDFBox möglicherweise besser geeignet. Wenn Sie verschiedene Elemente in einem PDF auswählen und exportieren müssen, ist iText die erste Wahl. Wenn Sie PDF in perfektes HTML konvertieren möchten, ist Apache FOP eine umfassendere Lösung .

Wenn Sie in der Praxis komplexere Vorgänge an PDFs durchführen müssen, wie z. B. das Ändern des Layouts, das Hinzufügen von Kommentaren oder die Fehlerbehebung, müssen Sie ausgefeiltere Tools und Techniken verwenden, darunter Adobe Acrobat und vollständig angepasste PDF-Viewer. Für die meisten PDF-zu-HTML-Konvertierungssituationen ist es jedoch sehr praktisch, das von der Java-Bibliothek bereitgestellte PDF-zu-HTML-Konvertierungstool zu verwenden.

Das obige ist der detaillierte Inhalt vonWie konvertiert man PDF in HTML? Kurze Analyse der Methoden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:Welche Sprache ist HTML?Nächster Artikel:Welche Sprache ist HTML?