찾다

 >  Q&A  >  본문

python3.x - Python网络爬虫学习建议,初学者需要哪些准备?

此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。

PHPzPHPz2787일 전911

모든 응답(3)나는 대답할 것이다

  • PHP中文网

    PHP中文网2017-04-18 10:33:48

    웹 개발을 해보니 크롤러를 만드는 것은 매우 간단하다고 생각합니다. http 프로토콜만 확인하면 괜찮을 것 같습니다

    몇 가지만 알려주세요

    • 크롤링 속도(제어 및 속도 절충)

      • 멀티스레딩

      • 여러 프로세스

        • 메시지 대기열

    • 웹페이지 분석

      • 인터페이스 검색-> F12.Network를 활용하세요

      • xpath, re 및 기타 구문 분석 라이브러리

      • 구조화된 데이터

    • 지속성->데이터베이스 연결 풀->특정 번호에 대한 데이터베이스 연결 활성화

    • 크롤러 방지

      • IP 차단->프록시 풀->프록시를 더욱 합리적으로 사용하는 방법

      • 인증코드->OCR

    회신하다
    0
  • 迷茫

    迷茫2017-04-18 10:33:48

    먼저 PHP를 사용하여 크롤러를 구현하고 원리를 이해할 수 있습니다. 컬도 할 수 있어요. 언어는 도구일 뿐이에요

    회신하다
    0
  • 天蓬老师

    天蓬老师2017-04-18 10:33:48

    "Python Web Crawler"라는 책을 읽어보세요.

    회신하다
    0
  • 취소회신하다