>  Q&A  >  본문

网页爬虫 - python采集百度新闻的原理是什么?

火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?

或是有高人说下实现的原理是多少?

比如步骤?

或是如何用python来实现,可以举个简单的例子

天蓬老师天蓬老师2763일 전974

모든 응답(3)나는 대답할 것이다

  • 高洛峰

    高洛峰2017-04-18 09:05:01


    출처 주소: http://www.cnblogs.com/jasondan/p/3497757.html

    회신하다
    0
  • PHP中文网

    PHP中文网2017-04-18 09:05:01

    보다 타겟화된 목적으로는 p, 기사 ​​등의 태그를 사용하여 간단한 판단을 내릴 수 있습니다. 좀 더 일반적인 내용이 필요한 경우 수집된 웹페이지 데이터를 분석하여 중국어(태그가 없는 텍스트)의 밀도를 계산하는 알고리즘을 작성하여 본문인지 여부를 판단할 수 있습니다. 구체적으로 하지는 않았지만 기본적으로 아이디어는 이렇습니다.

    회신하다
    0
  • PHP中文网

    PHP中文网2017-04-18 09:05:01

    1. HTTP 프로토콜 시뮬레이션, (보통 request, urllib2 모듈 사용)

    2. 정보 추출(HTML 문서의 특성상 일반적으로 xpath, beautifulsoup 사용)

    회신하다
    0
  • 취소회신하다