ホームページ  >  記事  >  ウェブフロントエンド  >  htmlからワードJavaへ

htmlからワードJavaへ

WBOY
WBOYオリジナル
2023-05-21 12:18:08849ブラウズ

インターネット技術の発展に伴い、ますます多くのアプリケーションが開発されており、その中でも HTML と Word は私たちがよく使用する 2 つのアプリケーションです。 HTML は、Web ページやその他の Web ドキュメントの作成に使用されるマークアップ言語です。 Word は、文書の作成と編集に使用されるテキスト編集プログラムです。 Web サイトのメンテナンス中など、オフラインで簡単に表示できるように HTML ドキュメントから Word ドキュメントを作成する必要がある場合や、オンライン レポートをアップロード可能なドキュメントに変換する必要がある場合など、HTML から Word への変換が必要な状況は数多くあります。この記事では、Java コードを使用して HTML を Word 文書に変換する方法を紹介します。

  1. 必要なライブラリをインポートする
    まず、必要なライブラリをインポートする必要があります。 Java コードを使用するため、埋め込み Java ライブラリが必要になり、Apache POI ライブラリを使用して Word ドキュメントを処理します。このライブラリを使用するには、次の依存関係をプロジェクトに追加する必要があります。

840a7591243dfba3ada04bc4f68e74b4

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>3.17</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>3.17</version>
</dependency>
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.10.1</version>
</dependency>

7904d80c8b6180af17e43101e3c2bac3

  1. HTML ファイルの準備
    HTML ファイルを変換する前に、 HTML ファイル。これは、Web サイトからダウンロードしたドキュメント、または自分で作成したファイルです。チュートリアルを簡素化するために、後で例として使用する HTML ファイルを作成します。このファイルは、メモ帳またはその他のテキスト エディターを使用して作成できます。

8b05045a5be5764f313ed5b9168a17e6
100db36a723c770d327fc0aef2ce13b1
93f0f5c25f18dab9d176bd4f6de5d30e

<meta charset="UTF-8">
<title>HTML to Word Conversion</title>

9c3bca370b5104690d9ef395f2c5f8d1
6c04bd5ca3fcae76e30b72ad730ca86d

<h1>This is a sample HTML file</h1>
<p>Here is some text that we will convert to Word format.</p>
<ul>
    <li>List item 1</li>
    <li>List item 2</li>
    <li>List item 3</li>
</ul>
<br />
<ol>
    <li>Numered item 1</li>
    <li>Numered item 2</li>
    <li>Numered item 3</li>
</ol>

36cc49f0c466276486e50c850b7e4956
73a6ac4ed44ffec12cee46588e518a5e

  1. HTML ファイルを読み取り、Word ドキュメントに変換します
    このステップでは、HTML ファイルを読み取り、変換します。それをWord文書に変換します。これを行うには、この操作を実行するconvertHtmlToWordというメソッドを定義する必要があります。このメソッドは、JSoup ライブラリを使用して HTML ファイルのコンテンツを読み取り、Apache POI ライブラリを使用してそれを Word ドキュメント形式に変換します。 Javaクラスに以下のコードを記述してください。

import java.io.*;
import org.apache.poi.xwpf.usermodel.*;
import org.jsoup.*;
import org.jsoup. Nodes.*;
import org.jsoup.select.*;

public class HtmlToWordConverter {

public static void main(String[] args) {
    String inputFilePath = "D:\sample.html";
    String outputFilePath = "D:\sample.docx";
    convertHtmlToWord(inputFilePath, outputFilePath);
}

public static void convertHtmlToWord(String inputFilePath, String outputFilePath) {
    try {
        String html = readFile(inputFilePath);
        Document document = Jsoup.parse(html);
        XWPFDocument doc = new XWPFDocument();

        Elements elements = document.body().children();
        for (Element element : elements) {
            if (element.tagName().equals("h1")) {
                XWPFParagraph paragraph = doc.createParagraph();
                XWPFRun run = paragraph.createRun();
                run.setText(element.text());
                run.setBold(true);
            } else if (element.tagName().equals("p")) {
                XWPFParagraph paragraph = doc.createParagraph();
                XWPFRun run = paragraph.createRun();
                run.setText(element.text());
            } else if (element.tagName().equals("ul")) {
                XWPFParagraph paragraph = doc.createParagraph();
                XWPFRun run = paragraph.createRun();

                Elements listItems = element.children();
                int i = 1;
                for (Element listItem : listItems) {
                    run.setText(i + ". " + listItem.text() + "

");

                    i++;
                }
            } else if (element.tagName().equals("ol")) {
                XWPFParagraph paragraph = doc.createParagraph();
                XWPFRun run = paragraph.createRun();

                Elements listItems = element.children();
                int i = 1;
                for (Element listItem : listItems) {
                    run.setText(listItem.text() + "

");

                    i++;
                }
            }
        }

        FileOutputStream out = new FileOutputStream(outputFilePath);
        doc.write(out);
        out.close();
    } catch (IOException ex) {
        System.out.println(ex.getMessage());
    }
}

public static String readFile(String filePath) {
    try {
        BufferedReader reader = new BufferedReader(new FileReader(filePath));
        StringBuilder stringBuilder = new StringBuilder();
        String line;
        while ((line = reader.readLine()) != null) {
            stringBuilder.append(line);
        }
        return stringBuilder.toString();
    } catch (IOException ex) {
        System.out.println(ex.getMessage());
        return null;
    }
}

}

  1. Java コードを実行して出力を表示する
    これで、Java コードを実行して出力を表示できます。このコードを実行するには、コマンド ラインで次のコマンドを入力する必要があります。

java -cp ".;path-to-all-dependency-jars*" HtmlToWordConverter

path-to-all-dependency-jars を置き換える必要があることに注意してください。ダウンロード すべての Jar へのパス。 Windows オペレーティング システムでは、セミコロンを使用して Jar パスを区切ります。

コードを実行すると、sample.docx という名前の Word ドキュメントが指定された出力パスに作成されます。 Word文書を開いて内容を確認してください。 HTML ファイルの内容と似たものが表示されます。 HTML ファイルに画像を追加すると、それに応じて Word 文書に表示されます。

結論:
この記事では、Java コードを使用して HTML ファイルを Word ドキュメントに変換する方法を紹介しました。 Apache POI ライブラリと JSoup ライブラリを使用して HTML ファイルを読み取り、Word ドキュメント形式に変換しました。単純な HTML ファイルでは、このメソッドは非常に効率的であり、直接使用できます。ただし、より複雑な HTML ファイルの場合は、変換先のターゲット形式に応じて、より詳細な調整が必要になる場合があります。

以上がhtmlからワードJavaへの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
前の記事:HTMLの隠しタグ次の記事:HTMLの隠しタグ