recherche

Maison  >  Questions et réponses  >  le corps du texte

python3.x - Python网络爬虫学习建议,初学者需要哪些准备?

此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。

PHPzPHPz2787 Il y a quelques jours910

répondre à tous(3)je répondrai

  • PHP中文网

    PHP中文网2017-04-18 10:33:48

    Ayant fait du développement Web, je pense que créer un robot est très simple. Assurez-vous simplement qu'il s'agit du protocole http et tout ira bien

    .

    Dis-moi juste quelques choses

    • Vitesse d'exploration (compromis contrôle et vitesse)

      • Multi-threading

      • Processus multiples

        • File d'attente des messages

    • Analyse de pages Web

      • Découverte de l'interface-> Faites bon usage de F12.Network

      • xpath, re et autres bibliothèques d'analyse

      • Données structurées

    • Persistance->Pool de connexions à la base de données->Activer les connexions à la base de données à un certain nombre

    • Anti-crawler

      • Ban IP->Proxy Pool->Comment utiliser le proxy de manière plus raisonnable

      • Code de vérification->OCR

    répondre
    0
  • 迷茫

    迷茫2017-04-18 10:33:48

    Vous pouvez d'abord utiliser PHP pour implémenter le robot et comprendre les principes. Curl peut aussi le faire, la langue n'est qu'un outil

    répondre
    0
  • 天蓬老师

    天蓬老师2017-04-18 10:33:48

    Lisez un livre intitulé "Python Web Crawler".

    répondre
    0
  • Annulerrépondre