때때로 업무나 필요에 따라 필요한 데이터를 얻기 위해 여러 웹사이트를 탐색하게 되었고, 이에 따라 크롤러가 탄생하게 되었습니다. 다음은 간단한 크롤러를 개발하는 과정과 제가 겪은 문제입니다. ???? 다양한 전문가들의 정보를 참고하여 역지수를 찾아보세요. 기본 원칙에 따라 간단한 검색 엔진을 설계합니다.
이전 크롤러는 아무런 처리도 하지 않고 웹페이지의 소스 코드만 얻었습니다. 일회성 소형 크롤러였기 때문에 Xiaobai는 정규식을 사용하여 웹페이지의 내용을 일치시켜 URL을 얻은 다음 작은 크롤러를 사용했습니다. 크롤러는 이것을 사용할 수 있습니다. 죽을 때까지 웹 페이지를 크롤링하도록 도와주세요. 여기서 beautifulsoup 및 정규식을 언급해야 합니다. beautifulsoup 모듈은 웹 크롤링 및 추출을 위한 강력한 도구라고 합니다. 다이묘는 해볼 수 없어서 아쉽지만 샤오바이는 정규식을 직접 연구해서 능숙하게(강제적으로) 익히면 웹페이지 소스코드 추출 URL도 아주 쉽게 사용할 수 있다. :
link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", html)
这一句就提出个七七八八来,当然这么粗糙鱼目混珠的情况也是少不了的,但是还是非常好用的, 虽然看起来很复杂但是只要掌握了(?52e6299321e87de75a2b0d13a7b81305be337b902aa7e2394219c5df34c1adf3之中,title和链接什么的也有对应的标签, 运用正则表单式理论上可以分离出来,不过小白亲身时间发现只匹配一次效果非常不好, 匹配的内容的确包括想要的内容,但是因为标签一般都是嵌套的嘛而且小白技术毕竟也不好正则表达式可能表述的也有问题, 所以总是会将内容嵌套在标签中返回,这里就有一个比较笨的方法供大家参考,咳咳, 既然一次不能得到,那么就对内容进行再匹配,咳咳,经过了三层匹配外加一些小技巧终于是勉强匹配出来了, 这里代码过于丑陋就不再贴出来了咳咳。
관련 추천 :
Scrapy 크롤러 입문 튜토리얼 4 Spider(크롤러) php는 간단한 크롤러의 개발을 실현하고, php는 크롤러를 실현합니다위 내용은 간단한 검색 엔진을 만드는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!