Rumah >pembangunan bahagian belakang >Tutorial Python >爬虫技术可以爬https么

爬虫技术可以爬https么

silencementasal: 2019-05-29 13:55:236832semak imbas

爬虫技术可以爬https么

爬虫技术可以爬https么?

首先我们先来理解什么是https

https是HTTP+SSL的简称，是在HTTP传输方式的基础上将之前的明文进行了加密传输，在传输之前就会确定信息加密方式和秘钥，在传输中即使被捕获或者伪造，那么也能保证信息不被泄露。

而爬虫本质是伪装成一个浏览器，发送请求给服务器，参与了整个过程，所以即使https链接也能抓取，但前提是伪造的这个客户端有正确的SSL证书。

寻找错误根源

爬虫运行中提示SSL error错误的情况，一般是本地证书或者相关SSL库没有正确安装、服务器使用自己制作的CA证书，没有有权威机构认证

解决证书异常问题

对于ＣＡ证书问题我们可以参考下面集中方案：

１.不验证ＣＡ证书，但要忽略安全警告

coding=utf-8import requests# 不验证CA证书则需要忽略安全警告方式一：import urllib3urllib3.disable_warnings()方式二：from requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib3.disable_warnings(InsecureRequestWarning)r=requests.get(url=“https://www.baidu.com/”,verify=False)print r.elapsed.total_seconds()

２.指定证书位置或含证书的文件夹（此文件夹是由ＯｐｅｎＳＳＬ工具制作的）

coding=utf-8import requestsr=requests.get(url=“https://www.baidu.com/”,verify=&#39;/path/to/certfile&#39;)

Atas ialah kandungan terperinci 爬虫技术可以爬https么. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Error http https ssl

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：qpython3l怎么用Artikel seterusnya：python shell怎么打开

Artikel berkaitan

Lihat lagi