ホームページ >バックエンド開発 >Python チュートリアル >Python で Web データをスクレイピングする方法
Python でネットワーク データをスクレイピングする方法
Web データ スクレイピングとは、インターネットから情報を取得するプロセスを指します。Python には、役立つ強力なライブラリが多数あります。この目標を達成する。この記事では、Python を使用してネットワーク データをクロールする方法を紹介し、具体的なコード例を示します。
次のコマンドを使用して、これらのライブラリを個別にインストールできます。
pip install urllib pip install requests pip install BeautifulSoup
URL を介してデータを取得する
urllib ライブラリを使用すると、次のことができます。 URLから簡単にデータを取得できます。 URL を通じて Web ページの HTML コードを取得する方法を示す例を次に示します。
import urllib url = "https://www.example.com" response = urllib.request.urlopen(url) html = response.read().decode('utf-8') print(html)
上記のコードでは、最初にクロールする URL を指定し、次に urllib.request を使用します。 urlopen()
URL を開く関数。返される結果はファイルのようなオブジェクトであり、read()
メソッドを使用してその内容を読み取ることができます。最後に、decode()
関数を使用してコンテンツを UTF-8 形式にデコードし、結果を出力します。
ネットワーク リクエストにはリクエスト ライブラリを使用する
urllib ライブラリと比較して、リクエスト ライブラリはより便利で強力です。リクエスト ライブラリを使用した例を次に示します。
import requests url = "https://www.example.com" response = requests.get(url) html = response.text print(html)
上記のコードでは、requests.get()
関数を使用して GET リクエストを送信し、返された結果を に保存します。応答
変数内。 text
属性を使用して、応答のコンテンツにアクセスし、結果を出力できます。
HTML コードの解析
Web スクレイピング後、通常は HTML コードを解析して必要なデータを抽出する必要があります。現時点では、BeautifulSoup ライブラリを使用できます。以下は、BeautifulSoup ライブラリを使用して HTML コードを解析する例です。
from bs4 import BeautifulSoup url = "https://www.example.com" response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'html.parser') title = soup.title.text print(title)
上記のコードでは、まず requests.get()
関数を使用して、 Web ページを作成し、 BeautifulSoup オブジェクトを作成し、それに HTML コードをパラメータとして渡します。 BeautifulSoup オブジェクトのメソッドとプロパティを使用すると、Web ページ内の特定の要素を簡単に取得できます。
要約すると、Python を使用してネットワーク データを収集できます。この記事では、urllib および request ライブラリを使用して Web ページの HTML コードを取得し、BeautifulSoup ライブラリを使用して HTML コードを解析する方法を紹介します。もちろん、これは Web スクレイピングの基本的な紹介にすぎず、探索できる機能やテクニックは数多くあります。 Web スクレイピングの旅が成功することを祈っています。
以上がPython で Web データをスクレイピングする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。