ホームページ  >  に質問  >  本文

python - 爬虫获取所有数据的思路是什么

比如一个网站有下一页,我要怎么能把所有下一页爬完呢,用递归吗,递归深度不会有限制吗,初学,希望得到指点

ringa_leeringa_lee2740日前615

全員に返信(6)返信します

  • 大家讲道理

    大家讲道理2017-04-18 10:21:45

    再帰、メッセージキュー、クロールされたページのストレージ (Redis、データベース)

    返事
    0
  • 巴扎黑

    巴扎黑2017-04-18 10:21:45

    参照しているすべてのデータが小さなドメイン名の下にあるすべてのデータであり、原理を詳しく学習したくない場合は、scrapy を学習してください。

    参照しているすべてのデータがネットワーク データ全体であり、クロールが幅優先なのか深さ優先なのかなどを理解したい場合は、まず 10,000 台以上のサーバーが必要です。

    返事
    0
  • 怪我咯

    怪我咯2017-04-18 10:21:45

    同じ Web サイトの場合は、再帰を使用してクロールします。同じ Web サイトを最後までクロールできないのはなぜですか?

    返事
    0
  • 巴扎黑

    巴扎黑2017-04-18 10:21:45

    Web サイトの構造が単純で繰り返しの場合は、まずページ番号 URL のパターンを分析し、次に最初のページから直接総ページ数を取得し、次に他のページの URL を手動で構築できます。

    返事
    0
  • PHP中文网

    PHP中文网2017-04-18 10:21:45

    まず、クロールの考え方について簡単に説明します。www.xxx.com/post/1.html のようなページのリンクが非常に単純な場合は、再帰またはループを記述してクロールできます。

    ページのリンクが不明な場合は、クロールされたページを取得してタグのリンクを解析し、クロールを続行することができます。このプロセスでは、クロールされたリンクを保存し、新しいリンクをクロールするときにそれらを検索する必要があります。以前にクロールされたことがあり、その後再帰的にクロールします

    クロールのアイデア: URL をクロールする -> クロールされたコンテンツ内の新しい URL を解析する -> URL をクロールする ->....->再帰から抜け出す

    最後に、Python の世界には、基本的にすべての一般的なクローラー ルーチンをカプセル化した非常に強力なクローラー フレームワークがあります

    返事
    0
  • 阿神

    阿神2017-04-18 10:21:45

    リーリー

    中国信用ブラックリストのウェブサイトからすべての写真をローカルに保存するための簡単なコードウェブサイト自体はシンプルです!しかし、ウェブサイトはその場でクラッシュし、私は酔っていました。

    返事
    0
  • キャンセル返事