ホームページ  >  に質問  >  本文

python3.x - Python网络爬虫学习建议,初学者需要哪些准备?

此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。

PHPzPHPz2741日前861

全員に返信(3)返信します

  • PHP中文网

    PHP中文网2017-04-18 10:33:48

    Web 開発を行ったことがあるので、クローラーの作成は非常に簡単だと思います。これが http プロトコルであることを確認するだけで問題ありません。

    いくつかポイントを教えてください

    • クロール速度 (コントロールと速度のトレードオフ)

      • マルチスレッド

      • 複数のプロセス

        • メッセージキュー

    • Webページ分析

      • インターフェースの発見 -> F12.Networkを活用しましょう

      • xpath、re、およびその他の解析ライブラリ

      • 構造化データ

    • 永続性 -> データベース接続プール -> 特定の数へのデータベース接続を有効にする

    • アンチクローラー

      • IP の禁止 -> プロキシ プール -> プロキシをより合理的に使用する方法

      • 認証コード -> OCR

    • 返事
      0
  • 迷茫

    迷茫2017-04-18 10:33:48

    まず PHP を使用してクローラーを実装し、原理を理解します。 Curlでもできます、言語は単なるツールです

    返事
    0
  • 天蓬老师

    天蓬老师2017-04-18 10:33:48

    「Python Web Crawler」という本を読んでください。

    返事
    0
  • キャンセル返事