网页爬虫系统的设计_html/css_WEB-ITnose-HTML 튜토리얼-php.cn

집

웹 프론트엔드

HTML 튜토리얼

网页爬虫系统的设计_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 24, 2016 am 11:16 AM

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。当你需要大量的网络数据的时候，比如需要做一些数据分析，需要学习一些基于内容处理的算法的时候，爬虫程序就可以来为你抓取网站上的数据，人工一个页面一个页面的查找复制肯定不是办法，这个时候就需要编写爬虫来自动的为你去抓取网页数据。这篇博客将会讲述网页爬虫的设计。

前些天有一个需求就是从大众点评网站上抓取一点店铺数据作为推荐算法学习的数据，需要设计一个爬虫来为我获取这些店铺数据。根据要求，这个爬虫要在一个大众点评的根据地标进行店铺分类的页面获取地标的url，之后根据这些url抓取店铺的列表，之后根据列表来获取店铺的详情。

一般网页爬虫系统架构主要需要考虑以下方面

调度端：用来启动爬虫或者监控爬虫状态
URL管理器：用来存放和管理需要获取信息的链接，为网页下载器提供这些信息
网页下载器：下载网页的源代码以供分析
网页解析器：解析下载过后的源代码，分析出来相应的信息
日志系统：网页解析器拿到相关数据后即为这个链接解析成功，存放到日志系统中，日志系统与URL管理器进行通讯来剔除不需要的URL

以上就是一个爬虫需要考虑的最简单的部分。接下来会谈论一下实现的细节，大众点评的爬虫我是用Java编写的所以在这里我将主要使用Java语言表述。

调度端首先就是调度端啦，用来启动爬虫，为调度端传送不同的命令来控制爬虫，比如控制爬虫抓取一个店铺列表，或者抓取店铺详情，都是通过调度端运行的。
URL管理器 URL管理器是必不可少的，他就像一个队列，用来存放需要抓取的URL，我一般会把需要抓取的URL存放在记事本里，URL管理器通过读取文本即可分析出来需要抓取的URL。
网页下载器和网页解析器
这两个部分可以放在一块，因为Java中可以直接请求道网页的源代码而不用下载到本地的磁盘中，关于解析器：我推荐使用Jsoup。Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。Jsoup的主要功能如下：
1. 从一个URL，文件或字符串中解析HTML；
2. 使用DOM或CSS选择器来查找、取出数据；
3. 可操作HTML元素、属性、文本；
比如我想解析下面这个网页的店铺名称

可以打开浏览器的开发者工具，分析出来店铺名称在main标签下有一个id为basic-info的标签，这个标签中有一个shop-name标签，这个标签的内容就是店铺名称。当然有的地方不好分析的也要用到正则表达式来分析字段。

在Jsoup的帮助下只要几行代码就能解决：

Document doc =        Jsoup.connect(requestUrl).                header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0").get();Element basicBody = doc.getElementById("basic-info");String shopName = basicBody.getElementsByClass("shop-name").get(0).childNode(0).toString().trim();System.out.println(shopName);

注意header一定要设置，不然的话有的网站是会因为没有完整的头信息直接403拒绝访问爬虫的请求的。

日志系统日志系统和URL管理器同样可以储存在记事本中，通过比对日志文本和URL管理器的文本的不同就能得出哪些URL已经被抓去过而哪些没有。还可以单独在写一段代码来存放无效的URL，可以用来人工抓取。

以上就是一些细节，接下来来讨论下可能会遇到的问题：

网站403拒绝访问：

现在的网站肯定都为了防止爬虫系统抓取他们的数据而做了处理，如果爬虫在短时间内访问了网站的大量连接，对方的服务器会发现，并且封掉你的IP，这时候你只会收到403拒绝访问，可能在30分钟或一段时间之后爬虫才能恢复对网站的访问。这个时候可以让爬虫休息一段时间在进行工作，Java的异常处理机制为我们提供了便利，我们可以通过异常捕获的方法来得知403错误，通过捕获一个HttpStatusException来分析是否是被对方服务器发现而拒绝访问。从而暂停爬虫的工作，当然也可以在捕获这个异常之后通过一段代码来更换代理IP，如果有大量IP的话。

try{    //连接并解析Html}catch (HttpStatusException e){//异常捕获    if (e.getStatusCode()==403){        try {            logUtil.writeToHttpStatesException(); //日志写入            System.out.println("HttpStatusException! Program will sleep for "+configuration.forbiddenSleepTime/1000/60+"min.");            Thread.sleep(configuration.forbiddenSleepTime); //进程休眠        } catch (InterruptedException e1) {            e1.printStackTrace();        }    }    }

这个时候日志系统的用途就体现出来了，日志系统无形中提升了爬虫的稳定性，在抓取的时候可能会遇到各种异常，Socket超时，Http状态错误，数组越界，空指针等等，如果爬虫因为未知的错误而停止了运行，因为短期开发的过程中不可能想到所有可能出现的错误情况，第二次爬虫重新启动之后可以读取日志，这样就不会因为一个崩溃错误而导致爬虫把抓取过的信息再抓取一遍了。

并发需求刚在说了，快速的访问会导致403拒绝访问，我抓取大众点评的时候，每抓取一次休息5秒钟才不会被服务器拒绝访问，所以说这样算下来，爬虫的效率是很慢的，一分钟最多十几个店铺，但是如果需要抓取很多店铺，这就需要好几天了。所以说，编写的爬虫系统必须具备横向扩展能力，用更多的机器同时抓取来节省宝贵的时间。比如有10台空闲机器，我们可以将爬虫分别部署在10台机器上进行抓取，这个时候就需要更改URL管理器让其变得更加智能，可以增加URL任务分配相关的代码，比如我有1000个网页需要抓取，有5台电脑，URL管理器应该为第一台电脑分配抓取1-200个URL，第二个机器201-400，以此类推，这样的代码也很好写，小学数学问题就可以解决。
工具类设计爬虫设计完之后还需要设计一些小工具类来完成一些基本操作，比如文件合并，用来合并多台机器上抓取的信息，条目去重复，用来删掉重复抓取的店铺（可能的话），过滤器：用来过滤不要的店铺之类的。这样的工具类也是必不可少的。

以下是我设计的爬虫系统的结构：

因为我的爬虫需要抓取三种不同的网页，所以我设计了一个CrawlerManager类来管理调度不同类型的爬虫，这个Manager使得整个爬虫系统更加易于维护和调整，并且使得整个程序的逻辑结构更加清楚；

之后就可以开始抓取啦~

以上店铺数据仅为程序测试用，并未作为商业用途使用，如构成侵权，请直接留言，我会删除文章。

我的博客MikeTech app现已登陆iPhone和Android

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

HTML, CSS 및 JavaScript의 미래 : 웹 개발 동향Apr 19, 2025 am 12:02 AM

HTML의 미래 트렌드는 의미론 및 웹 구성 요소이며 CSS의 미래 트렌드는 CSS-In-JS 및 CSShoudini이며, JavaScript의 미래 트렌드는 WebAssembly 및 서버리스입니다. 1. HTML 시맨틱은 접근성과 SEO 효과를 향상시키고 웹 구성 요소는 개발 효율성을 향상 시키지만 브라우저 호환성에주의를 기울여야합니다. 2. CSS-in-JS는 스타일 관리 유연성을 향상 시키지만 파일 크기를 증가시킬 수 있습니다. CSShoudini는 CSS 렌더링의 직접 작동을 허용합니다. 3. Webosembly는 브라우저 애플리케이션 성능을 최적화하지만 가파른 학습 곡선을 가지고 있으며 서버리스는 개발을 단순화하지만 콜드 스타트 문제의 최적화가 필요합니다.

HTML : 구조, CSS : 스타일, 자바 스크립트 : 동작Apr 18, 2025 am 12:09 AM

웹 개발에서 HTML, CSS 및 JavaScript의 역할은 다음과 같습니다. 1. HTML은 웹 페이지 구조를 정의하고, 2. CSS는 웹 페이지 스타일을 제어하고 3. JavaScript는 동적 동작을 추가합니다. 그들은 함께 현대 웹 사이트의 프레임 워크, 미학 및 상호 작용을 구축합니다.

HTML의 미래 : 웹 디자인의 진화 및 트렌드Apr 17, 2025 am 12:12 AM

HTML의 미래는 무한한 가능성으로 가득합니다. 1) 새로운 기능과 표준에는 더 많은 의미 론적 태그와 WebComponents의 인기가 포함됩니다. 2) 웹 디자인 트렌드는 반응적이고 접근 가능한 디자인을 향해 계속 발전 할 것입니다. 3) 성능 최적화는 반응 형 이미지 로딩 및 게으른로드 기술을 통해 사용자 경험을 향상시킬 것입니다.

HTML vs. CSS vs. JavaScript : 비교 개요Apr 16, 2025 am 12:04 AM

웹 개발에서 HTML, CSS 및 JavaScript의 역할은 다음과 같습니다. HTML은 컨텐츠 구조를 담당하고 CSS는 스타일을 담당하며 JavaScript는 동적 동작을 담당합니다. 1. HTML은 태그를 통해 웹 페이지 구조와 컨텐츠를 정의하여 의미를 보장합니다. 2. CSS는 선택기와 속성을 통해 웹 페이지 스타일을 제어하여 아름답고 읽기 쉽게 만듭니다. 3. JavaScript는 스크립트를 통해 웹 페이지 동작을 제어하여 동적 및 대화식 기능을 달성합니다.

HTML : 프로그래밍 언어입니까 아니면 다른 것입니까?Apr 15, 2025 am 12:13 AM

Htmlisnotaprogramminglanguage; itisamarkuplanguage.1) htmlstructuresandformatswebcontentusingtags.2) itworksporstylingandjavaScriptOfforIncincivity, WebDevelopment 향상.

HTML : 웹 페이지 구조 구축Apr 14, 2025 am 12:14 AM

HTML은 웹 페이지 구조를 구축하는 초석입니다. 1. HTML은 컨텐츠 구조와 의미론 및 사용 등을 정의합니다. 태그. 2. SEO 효과를 향상시키기 위해 시맨틱 마커 등을 제공합니다. 3. 태그를 통한 사용자 상호 작용을 실현하려면 형식 검증에주의를 기울이십시오. 4. 자바 스크립트와 결합하여 동적 효과를 달성하기 위해 고급 요소를 사용하십시오. 5. 일반적인 오류에는 탈수 된 레이블과 인용되지 않은 속성 값이 포함되며 검증 도구가 필요합니다. 6. 최적화 전략에는 HTTP 요청 감소, HTML 압축, 시맨틱 태그 사용 등이 포함됩니다.

텍스트에서 웹 사이트로 : HTML의 힘Apr 13, 2025 am 12:07 AM

HTML은 웹 페이지를 작성하는 데 사용되는 언어로, 태그 및 속성을 통해 웹 페이지 구조 및 컨텐츠를 정의합니다. 1) HTML과 같은 태그를 통해 문서 구조를 구성합니다. 2) 브라우저는 HTML을 구문 분석하여 DOM을 빌드하고 웹 페이지를 렌더링합니다. 3) 멀티미디어 기능을 향상시키는 HTML5의 새로운 기능. 4) 일반적인 오류에는 탈수 된 레이블과 인용되지 않은 속성 값이 포함됩니다. 5) 최적화 제안에는 시맨틱 태그 사용 및 파일 크기 감소가 포함됩니다.

HTML, CSS 및 JavaScript 이해 : 초보자 안내서Apr 12, 2025 am 12:02 AM

WebDevelopmentReliesonHtml, CSS 및 JavaScript : 1) HtmlStructuresContent, 2) CSSSTYLESIT, 및 3) JAVASCRIPTADDSINGINTERACTIVITY, BASISOFMODERNWEBEXPERIENCES를 형성합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.