专栏：004：网页下载器的使用_html/css_WEB-ITnose-html教學-PHP中文網

首頁

web前端

html教學

专栏：004：网页下载器的使用_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:49 AM

系列爬虫专栏

崇尚的学习思维是：输入，输出平衡，且平衡点不断攀升。

曾经有大神告诫说：没事别瞎写文章；所以，很认真的写的是能力范围内的，看客要是看不懂，不是你的问题，问题在我，得持续输入，再输出。

差不多正式涉及所谓的网页爬虫

1：框架

序号	内容	说明
01	网络爬虫知识概况	概念是理解和精进的第一步
02	urllib	简单说明使用方法
03	request	强烈建议入手
04	代码示例	使用request爬取博客
05	参考及备注	总结与说明

2：网络爬虫

概念

网络爬虫：网络蜘蛛（Web spider）也叫网络爬虫（Web crawler）[1]，蚂蚁（ant），自动检索工具（automatic indexer），或者（在FOAF软件概念中）网络疾走（WEB scutter），是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。

分解复述：爬虫是一段代码，实现的功能是在网页上解析需要的信息。

涉及的名词

URL(Uniform Resource Locator):统一资源定位符,URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等.URL的格式由三部分组成：第一部分是协议(或称为服务方式)。第二部分是存有该资源的主机IP地址(有时也包括端口号)。第三部分是主机资源的具体地址，如目录和文件名等。第一部分和第二部分用“://”符号隔开，第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的，第三部分有时可以省略。如：http://www.jianshu.com/collection/dfcf1390085c

网络爬虫就是根据这些URL获取网页信息，再对获取到的网页源代码进行解析出所需要的信息。

3：urllib 库的使用简介

python2 和 python3中使用这个库的方法不一样，具体参考文档说明在python3中，urllib模块被拆分为urllib.request，urllib.parse 和urllib.error

以python3 为例，别问我为什么使用python3, 遇到编码问题你就懂我的好了。

序号	常用方法	解释说明
01	urllib.request.urlopen()
02	urllib.request.Request()

# 代码示例# -*- coding:utf-8 -*-# To: learn module# Date:2016.04.28# Author: wuxiaoshenimport urllib.requesturl = "http://www.geekonomics10000.com/author/admin"html = urllib.request.urlopen(url)response = html.read().decode('utf-8')print(response)

网页在浏览器下的部分显示截图：

1461832263862.png

网页源代码部分截图：chrome浏览器查看

1461832494093.png

代码输出部分截图：可以看到相同的字眼，这意味着，上面代码已经成功的抓取到了网页源代码。

1461832317844.png

4：requests使用介绍

HTTP for humans

常用方法介绍：

序号	方法	解释说明
01	发送请求
02	URL传递参数
03	响应内容	存在不同的响应方式
04	添加HTTP 头部	-
05	响应状态码，响应头部	-

逐个分解使用方法：url = "http://www.geekonomics10000.com/author/admin" 会经常被我用来分析爬虫知识。本人非常喜欢这个博客：学而时嘻之

requests是第三方python库，需要自己安装。安装出问题？生命不息，折腾不止(暴露了是罗粉？)

01：发送请求，继而下载网页源代码

# 实现的和urllib代码相同的功能：# -*- coding:utf-8 -*-# To: learn module# Date:2016.04.28# Author: wuxiaoshenimport requestsurl = "http://www.geekonomics10000.com/author/admin"html = requests.get(url)response = html.textprint(response)

结果部分显示截图：

1461833622056.png

02：URL传递参数

你也许经常想为URL的查询字符串(query string)传递某种数据。如果你是手工构建URL，那么数据会以键/值对的形式置于URL中，跟在一个问号的后面。例如， httpbin.org/get?key=val

比如：url = "http://yanbao.stock.hexun.com/xgq/gsyj.aspx?1=1&page=1"你想获取不同的网页，你通过翻页发现，只改动page后面的数字就可以了。你有可能为了获取更多的url,会这样：url = "http://yanbao.stock.hexun.com/xgq/gsyj.aspx?1=1&page="+str(i)

那么传递参数是怎么整的？

# -*- coding:utf-8 -*-# To: learn module# Date:2016.04.28# Author: wuxiaoshenimport requestsurl = "http://yanbao.stock.hexun.com/xgq/gsyj.aspx"data = {"1": 1, "page": 4}html = requests.get(url, params=data)print(html.url)# outputhttp://yanbao.stock.hexun.com/xgq/gsyj.aspx?page=4&1=1别问我为什么后面的位置反了，又没影响正常访问。好吧。因为字典是无序的。

03：响应内容读取服务器响应的内容：

# -*- coding:utf-8 -*-# To: learn module# Date:2016.04.28# Author: wuxiaoshenimport requestsurl = "http://www.geekonomics10000.com/author/admin"html = requests.get(url)response_1 = html.text      # response_2 = html.content   # 以字节的方式访问请求响应体，对于非文本请求response_3 = html.raw       # 原始响应print(type(response_1))print(type(response_2))print(type(response_3))# output<class 'str'><class 'bytes'><class 'requests.packages.urllib3.response.HTTPResponse'># 一般选择第一种text响应...

04：响应头部

防盗链和伪装成浏览器访问：防盗链就是需要在请求的头部加入Referer字段, Referer 指的是HTTP头部的一个字段, 用来表示从哪儿链接到目前的网页，采用的格式是URL。换句话说，借着 HTTP Referer 头部网页可以检查访客从哪里而来，这也常被用来对付伪造的跨网站请求。某些网站做了限制，进制爬虫的访问，此时我们可以更改HTTP的header

HTTP状态码HTTP状态码（英语：HTTP Status Code）是用以表示网页服务器HTTP响应状态的3位数字代码。比较常见的是200响应成功。403禁止访问。2xx成功3xx重定向4xx客户端错误5xx服务器错误

# -*- coding:utf-8 -*-# To: learn module# Date:2016.04.28# Author: wuxiaoshenimport requestsurl = "http://blog.csdn.net/pongba"   # 刘未鹏的CSDN博客地址html = requests.get(url)print(html.status_code)# output:403---# 添加头部信息：# -*- coding:utf-8 -*-# To: learn module# Date:2016.04.28# Author: wuxiaoshenimport requestsurl = "http://blog.csdn.net/pongba"headers = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36',           "Referer": 'http://blog.csdn.net/pongba/article/details/7911997'}html = requests.get(url, headers=headers)print(html.status_code)# output200

如何获取头部信息：截图演示：chrome 浏览器，右键，检查。

1461836313681.png

5：实战抓取博文

获取刘未鹏博客：[BetterExplained]如何有效地记忆与学习的全部博文文章地址

# -*- coding:utf-8 -*-# To: learn module# Date:2016.04.28# Author: wuxiaoshenimport requestsimport reimport codecsclass LiuweipengBlog(object):    def __init__(self):        self.url = "http://blog.csdn.net/pongba/article/details/4033477"        self.header = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36',           "Referer": 'http://blog.csdn.net/pongba/article/details/7911997'}        self.pattern_content = r'<div id="article_content" class="article_content">(.*?)</div>'        self.pattern_word = r'<strong>(.*?)</strong>'        pass    def download(self):        html = requests.get(self.url, headers=self.header)        try:            if html.status_code == 200:                return html.text        except:            print("Something with it.")        pass    def parse_content(self, content):        passage = re.findall(self.pattern_content, content, re.S)        words = re.findall(self.pattern_word, str(passage), re.S)        print(words)        return words        pass    def save_content(self, passage):        filename = "blog.txt"        with codecs.open(filename, 'w',encoding='utf8') as f:            f.write(str(passage))        passif __name__ == "__main__":    Blog_passage = LiuweipengBlog()    content = Blog_passage.download()    passage = Blog_passage.parse_content(content)    Blog_passage.save_content(passage)

分析过程显示：正则为什么那样写：网页源代码唯一标示啊，然后再在这里面分析，大部分文字在(.*?)注意到写的正则没有使用很复杂的表达式，就使用了(.*?)就完成了大部分任务。

1461837985361.png

效果显示：网页的文章开头：

1461837713238.png

抓取的开头：

1461837743668.png

网页的结尾：

1461837763015.png

抓取的结尾：

1461837795287.png

代码还存在好些值得优化的地方(不写注释的程序员，不是个好吃货)。你懂的。因为...我还有事。。可以先直观的看看实现过程。

6：参考及说明

参考资料1：requests文档urllib文档

正则表达式参考教程：爬虫系列教程

关于本人：国内小硕，跌跌撞撞的IT学习者。兴趣领域：爬虫及数据科学

本人正在构建一个爬虫学习付费(30)社群。付费是为了降低信噪比。社群的理念是：思维，不断的精进。有兴趣的可以私信，限制30名。群内鼓励原创教程，不断交流精进，目前已经有小伙伴参加。

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

如何驗證您的HTML代碼？Apr 24, 2025 am 12:04 AM

HTML代碼可以通過在線驗證器、集成工具和自動化流程來確保其清潔度。 1)使用W3CMarkupValidationService在線驗證HTML代碼。 2)在VisualStudioCode中安裝並配置HTMLHint擴展進行實時驗證。 3)利用HTMLTidy在構建流程中自動驗證和清理HTML文件。

HTML與CSS和JavaScript：比較Web技術Apr 23, 2025 am 12:05 AM

HTML、CSS和JavaScript是構建現代網頁的核心技術：1.HTML定義網頁結構，2.CSS負責網頁外觀，3.JavaScript提供網頁動態和交互性，它們共同作用，打造出用戶體驗良好的網站。

HTML作為標記語言：其功能和目的Apr 22, 2025 am 12:02 AM

HTML的功能是定義網頁的結構和內容，其目的在於提供一種標準化的方式來展示信息。 1）HTML通過標籤和屬性組織網頁的各個部分，如標題和段落。 2）它支持內容與表現分離，提升維護效率。 3）HTML具有可擴展性，允許自定義標籤增強SEO。

HTML，CSS和JavaScript的未來：網絡開發趨勢Apr 19, 2025 am 12:02 AM

HTML的未來趨勢是語義化和Web組件，CSS的未來趨勢是CSS-in-JS和CSSHoudini，JavaScript的未來趨勢是WebAssembly和Serverless。 1.HTML的語義化提高可訪問性和SEO效果，Web組件提升開發效率但需注意瀏覽器兼容性。 2.CSS-in-JS增強樣式管理靈活性但可能增大文件體積，CSSHoudini允許直接操作CSS渲染。 3.WebAssembly優化瀏覽器應用性能但學習曲線陡，Serverless簡化開發但需優化冷啟動問題。

HTML：結構，CSS：樣式，JavaScript：行為Apr 18, 2025 am 12:09 AM

HTML、CSS和JavaScript在Web開發中的作用分別是：1.HTML定義網頁結構，2.CSS控製網頁樣式，3.JavaScript添加動態行為。它們共同構建了現代網站的框架、美觀和交互性。

HTML的未來：網絡設計的發展和趨勢Apr 17, 2025 am 12:12 AM

HTML的未來充滿了無限可能。 1)新功能和標準將包括更多的語義化標籤和WebComponents的普及。 2)網頁設計趨勢將繼續向響應式和無障礙設計發展。 3)性能優化將通過響應式圖片加載和延遲加載技術提升用戶體驗。

HTML與CSS vs. JavaScript：比較概述Apr 16, 2025 am 12:04 AM

HTML、CSS和JavaScript在網頁開發中的角色分別是：HTML負責內容結構，CSS負責樣式，JavaScript負責動態行為。 1.HTML通過標籤定義網頁結構和內容，確保語義化。 2.CSS通過選擇器和屬性控製網頁樣式，使其美觀易讀。 3.JavaScript通過腳本控製網頁行為，實現動態和交互功能。

HTML：是編程語言還是其他？Apr 15, 2025 am 12:13 AM

HTMLISNOTAPROGRAMMENGUAGE; ITISAMARKUMARKUPLAGUAGE.1）htmlStructures andFormatSwebContentusingtags.2）itworkswithcsssforstylingandjavascript for Interactivity，增強WebevebDevelopment。

See all articles