PythonクローラーパッケージBeautifulSoupの再帰的クローリング例の詳細説明-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

PythonクローラーパッケージBeautifulSoupの再帰的クローリング例の詳細説明

高洛峰

Feb 03, 2017 pm 03:59 PM

Python クローラーパッケージ BeautifulSoup 再帰的クロールの例の詳細な説明

概要:

クローラーの主な目的は、ネットワークに沿って必要なコンテンツをクロールすることです。それらの本質は再帰的なプロセスです。まず Web ページのコンテンツを取得し、次にページコンテンツを分析して別の URL を見つけ、次にこの URL のページコンテンツを取得し、このプロセスを繰り返す必要があります。

ウィキペディアを例に見てみましょう。

Wikipedia の Kevin Bacon エントリ内の他のエントリを指すすべてのリンクを抽出したいと考えています。

# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date:  2016-12-25 10:35:00
# @Last Modified by:  HaonanWu
# @Last Modified time: 2016-12-25 10:52:26
from urllib2 import urlopen
from bs4 import BeautifulSoup
 
html = urlopen(&#39;http://en.wikipedia.org/wiki/Kevin_Bacon&#39;)
bsObj = BeautifulSoup(html, "html.parser")
 
for link in bsObj.findAll("a"):
  if &#39;href&#39; in link.attrs:
    print link.attrs[&#39;href&#39;]

上記のコードは、ページ上のすべてのハイパーリンクを抽出できます。

/wiki/Wikipedia:Protection_policy#semi
#mw-head
#p-search
/wiki/Kevin_Bacon_(disambiguation)
/wiki/File:Kevin_Bacon_SDCC_2014.jpg
/wiki/San_Diego_Comic-Con
/wiki/Philadelphia
/wiki/Pennsylvania
/wiki/Kyra_Sedgwick

まず第一に、抽出された URL にはいくつかの重複が含まれる可能性があります

次に、サイドバー、ヘッダー、フッター、ディレクトリバーのリンクなど、必要のない URL がいくつかあります。

観察を通じて、エントリページを指すすべてのリンクには 3 つの特徴があることがわかります:

それらはすべて bodyContent の ID を持つ div タグ内にあります

URL リンクにはコロンが含まれていません

URL リンクはすべて / で始まりますwiki/ 先頭の相対パス (http から始まる完全な絶対パスにもクロールされます)

from urllib2 import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import re
 
pages = set()
random.seed(datetime.datetime.now())
def getLinks(articleUrl):
  html = urlopen("http://en.wikipedia.org"+articleUrl)
  bsObj = BeautifulSoup(html, "html.parser")
  return bsObj.find("div", {"id":"bodyContent"}).findAll("a", href=re.compile("^(/wiki/)((?!:).)*$"))
 
links = getLinks("/wiki/Kevin_Bacon")
while len(links) > 0:
  newArticle = links[random.randint(0, len(links)-1)].attrs["href"]
  if newArticle not in pages:
    print(newArticle)
    pages.add(newArticle)
    links = getLinks(newArticle)

getLinks のパラメータは /wiki/ であり、の絶対パスとマージされます。 Wikipedia ページの URL を取得します。正規表現を通じて他の用語を指すすべての URL をキャプチャし、メイン関数に返します。

メイン関数は再帰的な getlinks を呼び出し、エントリがなくなるかアクティブに停止するまで、未訪問の URL にランダムにアクセスします。

このコードは Wikipedia 全体をクロールできます

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
 
pages = set()
def getLinks(pageUrl):
  global pages
  html = urlopen("http://en.wikipedia.org"+pageUrl)
  bsObj = BeautifulSoup(html, "html.parser")
  try:
    print(bsObj.h1.get_text())
    print(bsObj.find(id ="mw-content-text").findAll("p")[0])
    print(bsObj.find(id="ca-edit").find("span").find("a").attrs[&#39;href&#39;])
  except AttributeError:
    print("This page is missing something! No worries though!")
 
  for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")):
    if &#39;href&#39; in link.attrs:
      if link.attrs[&#39;href&#39;] not in pages:
        #We have encountered a new page
        newPage = link.attrs[&#39;href&#39;]
        print("----------------\n"+newPage)
        pages.add(newPage)
        getLinks(newPage)
getLinks("")

一般的に言えば、Python の再帰制限は 1000 回であるため、人為的により大きな再帰カウンタを設定するか、他の手段を使用してコードを実行する必要があります。 1000回の反復後。

読んでいただきありがとうございます、皆さんのお役に立てれば幸いです、このサイトをサポートしていただきありがとうございます!

Python クローラーパッケージ BeautifulSoup の再帰的クロールの例と関連記事の詳細については、PHP 中国語 Web サイトに注目してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの主な目的：柔軟性と使いやすさApr 17, 2025 am 12:14 AM

Pythonの柔軟性は、マルチパラダイムサポートと動的タイプシステムに反映されていますが、使いやすさはシンプルな構文とリッチ標準ライブラリに由来しています。 1。柔軟性：オブジェクト指向、機能的および手続き的プログラミングをサポートし、動的タイプシステムは開発効率を向上させます。 2。使いやすさ：文法は自然言語に近く、標準的なライブラリは幅広い機能をカバーし、開発プロセスを簡素化します。

Python：汎用性の高いプログラミングの力Apr 17, 2025 am 12:09 AM

Pythonは、初心者から上級開発者までのすべてのニーズに適した、そのシンプルさとパワーに非常に好まれています。その汎用性は、次のことに反映されています。1）学習と使用が簡単、シンプルな構文。 2）Numpy、Pandasなどの豊富なライブラリとフレームワーク。 3）さまざまなオペレーティングシステムで実行できるクロスプラットフォームサポート。 4）作業効率を向上させるためのスクリプトおよび自動化タスクに適しています。

1日2時間でPythonを学ぶ：実用的なガイドApr 17, 2025 am 12:05 AM

はい、1日2時間でPythonを学びます。 1.合理的な学習計画を作成します。2。適切な学習リソースを選択します。3。実践を通じて学んだ知識を統合します。これらの手順は、短時間でPythonをマスターするのに役立ちます。

Python vs. C：開発者の長所と短所Apr 17, 2025 am 12:04 AM

Pythonは迅速な開発とデータ処理に適していますが、Cは高性能および基礎となる制御に適しています。 1）Pythonは、簡潔な構文を備えた使いやすく、データサイエンスやWeb開発に適しています。 2）Cは高性能で正確な制御を持ち、ゲームやシステムのプログラミングでよく使用されます。

Python：時間のコミットメントと学習ペースApr 17, 2025 am 12:03 AM

Pythonを学ぶのに必要な時間は、人によって異なり、主に以前のプログラミングの経験、学習の動機付け、学習リソースと方法、学習リズムの影響を受けます。現実的な学習目標を設定し、実用的なプロジェクトを通じて最善を尽くします。

Python：自動化、スクリプト、およびタスク管理Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

See all articles