htmlからjsonへ

PHPz
PHPzオリジナル
2023-04-21 15:16:33223ブラウズ

HTML から JSON への変換: Python を通じて実装

ビッグデータと人工知能の台頭により、データ処理と統計分析のスキルがますます重要になっています。 Web 開発者にとって、HTML は最も一般的に使用されるデータ形式の 1 つです。この記事では、Python でさらに多くのデータ処理と統計分析を行うために、HTML を JSON 形式に変換する方法を学びます。

JSONとは何ですか?

JSON (JavaScript Object Notation) は軽量のデータ交換形式です。これは JavaScript オブジェクト構文に基づいていますが、現在では独立したデータ形式となり、Web サービスやデータ交換で広く使用されています。 XML と比較すると、JSON はシンプルで高速、使いやすく理解しやすいため、フロントエンドとバックエンドのデータ交換によく使用されます。

なぜ HTML を JSON に変換する必要があるのですか?

Web 開発では、さまざまな Web サイトや API からデータを抽出し、それを分析に使用したり、自分の Web サイトに表示したりする必要がよくあります。 HTML はデータ形式の 1 つである可能性がありますが、ほとんどの場合、それを JSON 形式に変換する必要があります。これは、JSON 形式がよりコンパクトで、処理と送信が容易で、より汎用性が高く、複数の言語やテクノロジー間のデータ交換に使用できるためです。

HTML を JSON に変換する Python プログラム

Python は、HTML を JSON に簡単に変換できる豊富なライブラリとツールを備えた人気のプログラミング言語です。この記事では、Python ライブラリ Beautiful Soup と lxml を使用して HTML を解析し、JSON 形式に変換します。実装手順は次のとおりです:

  1. 必要なライブラリとツールをインストールします

Python で HTML を JSON に変換するには、次のライブラリとツールを使用する必要があります:

  • Beautiful Soup: HTML ドキュメントの解析に使用されます
  • lxml: HTML ドキュメントをツリー構造に解析するための Beautiful Soup のパーサー
  • json: JSON データを処理するための Python の組み込み JSON ライブラリ

これらのライブラリは、PIP ツール (例: pip install beautifulsoup4 lxml) とツールを使用してインストールできます。

  1. HTMLドキュメントを準備する

HTMLをJSONに変換する前に、変換するHTMLドキュメントを準備する必要があります。これは、Web ページからコピーされた HTML コード、またはローカル ファイルから読み取られた HTML ドキュメントです。この記事では、例として次の HTML コードを使用します:



My Web Page


< h1>私の Web ページへようこそ

これは、Web ページを作成する初めての試みです。



  1. Beautiful Soup lxml を使用した HTML ドキュメントの解析

HTML ドキュメントでは、Beautiful Soup と lxml を使用して解析できます。以下は Python コードです:

from bs4 import BeautifulSoup
import lxml

html_doc = """


My Web Page

私の Web ページへようこそ


これは、Web ページを作成する初めての試みです。



< /html> ;
"""

soup = BeautifulSoup(html_doc, "lxml")

このコードは、HTML ドキュメントをツリー構造に解析します。Beautiful Soup の関数とメソッドを使用して、HTML のさまざまな部分を取得できます。書類。

  1. HTML を JSON に変換する

解析された HTML ドキュメントをトラバースすることで、JSON 形式に変換できます。以下は Python コードの例です:

import json

Get HTML title

title =Soup.title.string

Get HTML body

body =Soup.body
content_list = []
for tag in body.descendants:
tag.string が None でない場合:

<code>content_list.append(tag.string.strip())</code>

content = " ".join(content_list)

HTML を JSON に変換

web_page = {"title": title, "content": content}
json_data = json.dumps (web_page)

print(json_data)

出力結果は次のとおりです:

{"title": "My Web Page", "content": "私の Web ページへようこそ これは、Web を作成するという私の最初の試みです。ページ。" }

解析された HTML ドキュメントをループすることにより、HTML のタイトルと本文を取得し、それらを JSON 形式に変換します。 Python の json ライブラリを使用して JSON データを文字列に変換し、JSON データを出力します。

結論

この記事では、Python の Beautiful Soup と lxml ライブラリを使用して HTML を JSON 形式に変換する方法を学びました。この方法により、HTML Web ページからデータを抽出し、Python 環境でさらに処理と分析を実行できます。このアプローチは、Web 開発、データ処理、およびデータ分析において重要な役割を果たします。

以上がhtmlからjsonへの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
前の記事:CSSのコメント次の記事:CSSのコメント