python3.x - Python网络爬虫学习建议，初学者需要哪些准备？

Question

此前一直是做PHP开发的，现在想学习下爬虫开发，很疑惑呀不知道从何做起，请大家指教下学习线路，我是属于想要深入研究型的。网上看到很多示例感觉就像做采集，Url扩散爬去和分析部分的资料很少...求推荐学习线路...

PHP中文网 · Answer

Web 開発を行ったことがあるので、クローラーの作成は非常に簡単だと思います。これが http プロトコルであることを確認するだけで問題ありません。

いくつかポイントを教えてください

クロール速度 (コントロールと速度のトレードオフ)
- マルチスレッド
- 複数のプロセス
  - メッセージキュー
Webページ分析
- インターフェースの発見 -> F12.Networkを活用しましょう
- xpath、re、およびその他の解析ライブラリ
- 構造化データ
永続性 -> データベース接続プール -> 特定の数へのデータベース接続を有効にする
アンチクローラー
- IP の禁止 -> プロキシプール -> プロキシをより合理的に使用する方法
- 認証コード -> OCR

迷茫 · Answer

まず PHP を使用してクローラーを実装し、原理を理解します。 Curlでもできます、言語は単なるツールです

天蓬老师 · Answer

「Python Web Crawler」という本を読んでください。