ホームページ > 記事 > ウェブフロントエンド > HTMLをWord文書に変換する方法
HTML は Web マークアップ言語、Word はワープロ ソフトウェアであり、この 2 つのファイル形式は異なります。ニーズの多様性とテクノロジーの発展により、現在、HTML を Word ドキュメントに変換する方法は数多くあります。この記事では、一般的に使用される方法の 1 つを紹介し、具体的なコード例を示します。
HTML を Word ドキュメントに変換するには、Pandoc、python-docx、phpword などのオープン ソース ライブラリまたはツールを使用できます。以下では、例として python-docx を使用してプロセスを示します。
まず、Python と python-docx ライブラリがコンピューターにインストールされていることを確認します。次に、次の手順に従います。
from docx import Document from bs4 import BeautifulSoup import requests
def html_to_word(html_file, table_of_contents=False): # 创建一个新的Word文档 doc = Document() # 读取HTML文件内容 with open(html_file, 'r') as f: html = f.read() # 使用BeautifulSoup解析HTML soup = BeautifulSoup(html, 'html.parser') # 获取HTML中的所有段落 paragraphs = soup.find_all('p') # 将每个段落写入Word文档 for p in paragraphs: doc.add_paragraph(p.text) # 如果需要生成目录,添加目录到Word文档 if table_of_contents: doc.add_page_break() doc.add_heading('Table of Contents', level=1) # 获取HTML中的所有标题 headings = soup.find_all(re.compile('^h[1-6]$')) # 将标题写入Word文档的目录 for h in headings: doc.add_paragraph(h.text, 'TOCHeading%d' % (int(h.name[1]))) # 保存Word文档 doc.save('output.docx') print("转换完成!") # 调用函数进行转换 html_to_word('input.html', table_of_contents=True)
python html_to_word.py
を実行し、プログラムの実行が完了するまで待ちます。 上記の手順を実行すると、「output.docx」という名前の Word ドキュメントが生成されます。このドキュメントには、HTML ファイル内の段落と (設定されている場合) 目次が含まれます。
これは HTML を Word に変換する方法の 1 つにすぎないことに注意してください。さまざまなニーズや技術スタックに応じて、他のツールやライブラリも使用できます。また、実際の使用時には、特定の HTML 構造やスタイルに基づいて適切な調整や最適化を行う必要がある場合があります。
要約すると、python-docx ライブラリを使用すると、HTML ファイルを Word ドキュメントに簡単に変換できます。 HTML を解析してそのコンテンツを抽出し、それを Word 文書に 1 つずつ追加し、最後に Word 形式で保存します。上記のコード サンプルは、HTML から Word への変換に役立つ出発点として使用できます。
以上がHTMLをWord文書に変換する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。