巴扎黑2017-04-18 10:21:45
参照しているすべてのデータが小さなドメイン名の下にあるすべてのデータであり、原理を詳しく学習したくない場合は、scrapy を学習してください。
参照しているすべてのデータがネットワーク データ全体であり、クロールが幅優先なのか深さ優先なのかなどを理解したい場合は、まず 10,000 台以上のサーバーが必要です。
巴扎黑2017-04-18 10:21:45
Web サイトの構造が単純で繰り返しの場合は、まずページ番号 URL のパターンを分析し、次に最初のページから直接総ページ数を取得し、次に他のページの URL を手動で構築できます。
PHP中文网2017-04-18 10:21:45
まず、クロールの考え方について簡単に説明します。www.xxx.com/post/1.html のようなページのリンクが非常に単純な場合は、再帰またはループを記述してクロールできます。
ページのリンクが不明な場合は、クロールされたページを取得してタグのリンクを解析し、クロールを続行することができます。このプロセスでは、クロールされたリンクを保存し、新しいリンクをクロールするときにそれらを検索する必要があります。以前にクロールされたことがあり、その後再帰的にクロールしますクロールのアイデア: URL をクロールする -> クロールされたコンテンツ内の新しい URL を解析する -> URL をクロールする ->....->再帰から抜け出す
最後に、Python の世界には、基本的にすべての一般的なクローラー ルーチンをカプセル化した非常に強力なクローラー フレームワークがあります
。
阿神2017-04-18 10:21:45
リーリー
中国信用ブラックリストのウェブサイトからすべての写真をローカルに保存するための簡単なコードウェブサイト自体はシンプルです!しかし、ウェブサイトはその場でクラッシュし、私は酔っていました。