Rumah >pembangunan bahagian belakang >Tutorial Python >利用python如何爬取js里面的内容

利用python如何爬取js里面的内容

零到壹度asal: 2018-04-10 09:54:129474semak imbas

本篇文章给大家分享的内容是3利用python如何爬取js里面的内容，有着一定的参考价值，有需要的朋友可以参考一下

一、在编写爬虫软件获取所需内容时可能会碰到所需要的内容是由javascript添加上去的在获取的时候为空比如我们在获取新浪新闻的评论数时使用普通的方法就无法获取

普通获取代码示例：

import requests
from bs4 import BeautifulSoup

res = requests.get(&#39;http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml&#39;)
res.encoding = &#39;utf-8&#39;
soup = BeautifulSoup(res.text,&#39;html.parser&#39;)
#取评论数
commentCount = soup.select_one(&#39;#commentCount1&#39;)
print(commentCount.text)

此时所获取的结果为空这是由于内容是存储在js文件中

因此我们需要取寻找存储评论内容的js 经过查找我们发现其存储在改js里

将相应内容放入json数据查看器中我们发现评论总数和评论内容都在该js文件中一json格式存放

在消息头中我们可以看的该js文件的访问路径及请求方式

代码示例

import json
comments = requests.get(&#39;http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783&#39;)
comments.encoding = &#39;utf-8&#39;
print(comments)
jd = json.loads(comments.text.strip(&#39;var data=&#39;)) #移除改var data=将其变为json数据
print(jd[&#39;result&#39;][&#39;count&#39;][&#39;total&#39;])

注释：这里解释下为何需要移除 var data= 因为在获取时字符串前缀是包含var data=的其不符合json数据格式因此转化时需将其从请求内容中移除

取评论总数时为何使用jd['result']['count']['total']

Atas ialah kandungan terperinci 利用python如何爬取js里面的内容. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Python JavaScript json count 字符串 var JS

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Anaconda的新手使用大全Artikel seterusnya：Python中title()方法的使用

Artikel berkaitan

Lihat lagi