python - 爬虫获取所有数据的思路是什么

Question

比如一个网站有下一页，我要怎么能把所有下一页爬完呢，用递归吗，递归深度不会有限制吗，初学，希望得到指点

大家讲道理 · Answer

再帰、メッセージキュー、クロールされたページのストレージ (Redis、データベース)

巴扎黑 · Answer

参照しているすべてのデータが小さなドメイン名の下にあるすべてのデータであり、原理を詳しく学習したくない場合は、scrapy を学習してください。

参照しているすべてのデータがネットワークデータ全体であり、クロールが幅優先なのか深さ優先なのかなどを理解したい場合は、まず 10,000 台以上のサーバーが必要です。

怪我咯 · Answer

同じ Web サイトの場合は、再帰を使用してクロールします。同じ Web サイトを最後までクロールできないのはなぜですか?

巴扎黑 · Answer

Web サイトの構造が単純で繰り返しの場合は、まずページ番号 URL のパターンを分析し、次に最初のページから直接総ページ数を取得し、次に他のページの URL を手動で構築できます。

PHP中文网 · Answer

まず、クロールの考え方について簡単に説明します。www.xxx.com/post/1.html のようなページのリンクが非常に単純な場合は、再帰またはループを記述してクロールできます。

ページのリンクが不明な場合は、クロールされたページを取得してタグのリンクを解析し、クロールを続行することができます。このプロセスでは、クロールされたリンクを保存し、新しいリンクをクロールするときにそれらを検索する必要があります。以前にクロールされたことがあり、その後再帰的にクロールします

クロールのアイデア: URL をクロールする -> クロールされたコンテンツ内の新しい URL を解析する -> URL をクロールする ->....->再帰から抜け出す

最後に、Python の世界には、基本的にすべての一般的なクローラールーチンをカプセル化した非常に強力なクローラーフレームワークがあります

。

阿神 · Answer

リーリー

中国信用ブラックリストのウェブサイトからすべての写真をローカルに保存するための簡単なコードウェブサイト自体はシンプルです！しかし、ウェブサイトはその場でクラッシュし、私は酔っていました。