火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?
或是有高人说下实现的原理是多少?
比如步骤?
或是如何用python来实现,可以举个简单的例子
PHP中文网2017-04-18 09:05:01
보다 타겟화된 목적으로는 p, 기사 등의 태그를 사용하여 간단한 판단을 내릴 수 있습니다. 좀 더 일반적인 내용이 필요한 경우 수집된 웹페이지 데이터를 분석하여 중국어(태그가 없는 텍스트)의 밀도를 계산하는 알고리즘을 작성하여 본문인지 여부를 판단할 수 있습니다. 구체적으로 하지는 않았지만 기본적으로 아이디어는 이렇습니다.
PHP中文网2017-04-18 09:05:01
HTTP 프로토콜 시뮬레이션, (보통 request, urllib2 모듈 사용)
정보 추출(HTML 문서의 특성상 일반적으로 xpath, beautifulsoup 사용)