ホームページ  >  記事  >  バックエンド開発  >  Python を使用して Web ページからタイトルを抽出する

Python を使用して Web ページからタイトルを抽出する

WBOY
WBOY転載
2023-08-31 12:45:051067ブラウズ

Python を使用して Web ページからタイトルを抽出する

Python では、Web スクレイピングを使用して Web ページからタイトルを抽出できます。 Web スクレイピングは、Web サイトまたは Web ページからデータを抽出するプロセスです。この記事では、Python の Requests ライブラリと BeautifulSoup ライブラリを使用して Web ページのタイトルをスクラップします。

Webページからタイトルを抽出

方法 1: Request ライブラリと Beautiful Soup ライブラリを使用する

Python のリクエストと Beautiful Soup ライブラリを使用して、Web ページからタイトルを抽出できます。リクエスト ライブラリは、HTTP リクエストを Web サイトに送信し、その応答を取得するために使用されます。次に、応答オブジェクトを使用して、Web ページの HTML コンテンツを抽出します。

###例###

以下の例では、Wikipedia のホームページのタイトルを抽出します。リクエスト ライブラリを使用して、Wikipedia ページの URL に GET リクエストを送信し、レスポンス オブジェクトをレスポンス変数に保存します。

次に、Beautiful Soup オブジェクトを使用して、応答オブジェクトで受信した HTML コンテンツを解析し、

soup.title

プロパティを使用して Web ページのタイトル タグを抽出します。次に、文字列属性を抽出して、title 変数に保存します。 リーリー ###出力### リーリー 方法 2: urllib と BeautifulSoup を使用してタイトルを抽出する

urllib メソッドと BeautifulSoup メソッドは、URL を開いて urllib ライブラリを使用して Web ページの HTML コンテンツを取得することにより、Web ページからタイトルを抽出するために使用されます。 HTML コンテンツを含む BeautifulSoup オブジェクトを作成し、「soup.title」プロパティを使用してページのタイトル タグを抽出します。

###例###

次の例では、urllib ライブラリを使用して URL を開き、Web ページの HTML コンテンツを取得します。次に、

'html.parser'

パーサーを使用して、Web ページの HTML コンテンツを使用して BeautifulSoup オブジェクトを作成します。

次に、

'soup.title'

属性を使用して、Web ページのタイトル タグを抽出します。最後に、「string」属性を使用して、title タグの文字列コンテンツを抽出し、それを「title」変数に格納します。次に、Web ページのタイトルをコンソールに出力します。 リーリー ###出力### リーリー 方法 3: Selenium と BeautifulSoup を使用してタイトルを抽出する

selenium メソッドと BeautifulSoup メソッドは、Selenium ライブラリを使用して URL を開いて Web ページの HTML コンテンツを取得することにより、Web ページからタイトルを抽出するために使用されます。 Chrome Webdriver を作成し、それを使用して Web ページに移動します。 Webdriver の「page_source」属性を使用して、Web ページの HTML コンテンツを取得します。 HTML コンテンツを含む BeautifulSoup オブジェクトを作成し、「soup.title」プロパティを使用してページのタイトル タグを抽出します。 ###例### 次の例では、Selenium ライブラリを使用して URL を開いて、Web ページの HTML コンテンツを取得します。 Chrome Webdriver を作成し、それを使用して Web ページに移動します。次に、Web ドライバーの「page_source」属性を使用して、Web ページの HTML コンテンツを取得します。

「html.parser」パーサーを使用して、Web ページの HTML コンテンツを使用して BeautifulSoup オブジェクトを作成します。次に、「soup.title」プロパティを使用して、Web ページのタイトル タグを抽出できます。最後に、「string」属性を使用して、title タグの文字列コンテンツを抽出し、それを「title」変数に格納します。次に、Web ページのタイトルをコンソールに出力します。

リーリー ###出力### リーリー

方法 4: 正規表現を使用してタイトルを抽出する

正規表現メソッドは、リクエスト ライブラリを使用して Web ページからヘッダーを抽出し、URL に GET リクエストを送信し、応答オブジェクトを保存するために使用されます。次に、Web ページの HTML コンテンツがデコードされ、変数に保存されます。 Web ページのタイトル タグと一致する正規表現パターンを定義します。正規表現パターンの Search メソッドは、Web ページの HTML コンテンツ内で最初に出現するパターンを検索します。 group(1) メソッドを使用すると、最初に一致したグループの文字列コンテンツを抽出して、Web ページのタイトルを取得できます。

###例###

以下の例では、正規表現を使用して Web ページのタイトルを抽出します。リクエスト ライブラリを使用して GET リクエストを URL に送信し、レスポンス オブジェクトを「response」変数に保存します。

次に、「utf-8」エンコーディングを使用して Web ページの HTML コンテンツをデコードし、それを「html_content」変数に保存します。 Web ページのタイトル タグと一致する正規表現パターンを定義します。

正規表現パターンの「検索」メソッドを使用して、Web ページの HTML コンテンツ内でそのパターンが最初に出現する箇所を見つけます。 「group(1)」メソッドを使用して、最初に一致したグループの文字列コンテンツを抽出し、それを「title」変数に格納します。次に、Web ページのタイトルをコンソールに出力します。

rree ###出力### リーリー ###結論は###

この記事では、リクエストと Python の Beautiful Soup ライブラリを使用して Web ページからタイトルを抽出するプロセスについて説明しました。リクエスト ライブラリは、HTTP リクエストを Web サイトの URL に送信し、応答として HTML コンテンツを取得するために使用されます。次に、Beautiful Soup ライブラリを使用して HTML コンテンツを解析し、HTML コンテンツから必要なヘッダーを抽出します。

以上がPython を使用して Web ページからタイトルを抽出するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はtutorialspoint.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。