Maison >développement back-end >Tutoriel Python >Comment obtenir des données réseau à l'aide du robot d'exploration Web Python

Comment obtenir des données réseau à l'aide du robot d'exploration Web Python

WBOY
WBOYavant
2023-05-12 11:04:061413parcourir

Obtenir des données réseau à l'aide de Python

Obtenir des données sur Internet à l'aide du langage Python est une tâche très courante. Python possède une bibliothèque appelée requêtes, qui est une bibliothèque client HTTP pour Python utilisée pour envoyer des requêtes HTTP aux serveurs Web.

Nous pouvons utiliser la bibliothèque de requêtes pour lancer une requête HTTP vers l'URL spécifiée via le code suivant :

import requests
response = requests.get(&#39;<http://www.example.com>&#39;)

Parmi eux, l'objet response contiendra la réponse renvoyée par le serveur. Utilisez response.text pour obtenir le contenu textuel de la réponse. response 对象将包含服务器返回的响应。使用 response.text 可以获取响应的文本内容。

此外,我们还可以使用以下代码获取二进制资源:

import requests
response = requests.get(&#39;<http://www.example.com/image.png>&#39;)
with open(&#39;image.png&#39;, &#39;wb&#39;) as f:
    f.write(response.content)

使用 response.content 可以获取服务器返回的二进制数据。

编写爬虫代码

爬虫是一种自动化程序,可以通过网络爬取网页数据,并将其存储在数据库或文件中。爬虫在数据采集、信息监控、内容分析等领域有着广泛的应用。Python 语言是爬虫编写的常用语言,因为它具有简单易学、代码量少、库丰富等优点。

我们以“豆瓣电影”为例,介绍如何使用 Python 编写爬虫代码。首先,我们使用 requests 库获取网页的 HTML 代码,然后将整个代码看成一个长字符串,使用正则表达式的捕获组从字符串提取需要的内容。

豆瓣电影 Top250 页面的地址是 https://movie.douban.com/top250?start=0,其中 start 参数表示从第几个电影开始获取。每页共展示了 25 部电影,如果要获取 Top250 数据,我们共需要访问 10 个页面,对应的地址是 https://movie.douban.com/top250?start=xxx,这里的 xxx 如果为 0 就是第一页,如果 xxx 的值是 100,那么我们可以访问到第五页。

我们以获取电影的标题和评分为例,代码如下所示:

import re
import requests
import time
import random
for page in range(1, 11):
    resp = requests.get(
        url=f&#39;<https://movie.douban.com/top250?start=>{(page - 1) * 25}&#39;,
        headers={&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36&#39;}
    )
    # 通过正则表达式获取class属性为title且标签体不以&开头的span标签并用捕获组提取标签内容
    pattern1 = re.compile(r&#39;<span class="title">([^&]*?)</span>&#39;)
    titles = pattern1.findall(resp.text)
    # 通过正则表达式获取class属性为rating_num的span标签并用捕获组提取标签内容
    pattern2 = re.compile(r&#39;<span class="rating_num".*?>(.*?)</span>&#39;)
    ranks = pattern2.findall(resp.text)
    # 使用zip压缩两个列表,循环遍历所有的电影标题和评分
    for title, rank in zip(titles, ranks):
        print(title, rank)
    # 随机休眠1-5秒,避免爬取页面过于频繁
    time.sleep(random.random() * 4 + 1)

在上述代码中,我们通过正则表达式获取标签体为标题和评分的 span 标签,并用捕获组提取标签内容。使用 zip 压缩两个列表,循环遍历所有电影标题和评分。

使用 IP 代理

许多网站对爬虫程序比较反感,因为爬虫程序会耗费掉它们很多的网络带宽,并制造很多无效的流量。为了隐匿身份,通常需要使用 IP 代理来访问网站。商业 IP 代理(如蘑菇代理、芝麻代理、快代理等)是一个好的选择,使用商业 IP 代理可以让被爬取的网站无法获取爬虫程序来源的真实 IP 地址,从而无法简单的通过 IP 地址对爬虫程序进行封禁。

以蘑菇代理为例,我们可以在该网站注册一个账号,然后购买相应的套餐来获得商业 IP 代理。蘑菇代理提供了两种接入代理的方式,分别是 API 私密代理和 HTTP 隧道代理,前者是通过请求蘑菇代理的 API 接口获取代理服务器地址,后者是直接使用统一的代理服务器 IP 和端口。

使用 IP 代理的代码如下所示:

import requests
proxies = {
    &#39;http&#39;: &#39;<http://username:password@ip>:port&#39;,
    &#39;https&#39;: &#39;<https://username:password@ip>:port&#39;
}
response = requests.get(&#39;<http://www.example.com>&#39;, proxies=proxies)

其中,usernamepassword 分别是蘑菇代理账号的用户名和密码,ipport

De plus, on peut également utiliser le code suivant pour obtenir des ressources binaires : 🎜rrreee🎜Utilisez response.content pour obtenir les données binaires renvoyées par le serveur. 🎜🎜Écrire le code du robot🎜🎜Un robot d'exploration est un programme automatisé qui explore les données d'une page Web à travers le réseau et les stocke dans une base de données ou un fichier. Les robots d'exploration sont largement utilisés dans la collecte de données, la surveillance des informations, l'analyse de contenu et d'autres domaines. Le langage Python est un langage couramment utilisé pour l'écriture de robots d'exploration car il présente les avantages d'être facile à apprendre, d'avoir une petite quantité de code et des bibliothèques riches. 🎜🎜Nous prenons "Douban Movie" comme exemple pour présenter comment utiliser Python pour écrire du code de robot. Tout d'abord, nous utilisons la bibliothèque de requêtes pour obtenir le code HTML de la page Web, puis traitons l'intégralité du code comme une longue chaîne et utilisons le groupe de capture de l'expression régulière pour extraire le contenu requis de la chaîne. 🎜🎜L'adresse de la page Douban Movie Top250 est https://movie.douban.com/top250?start=0, où le paramètre start indique quel film démarrer depuis. . Un total de 25 films sont affichés sur chaque page. Si nous voulons obtenir les données Top250, nous devons visiter un total de 10 pages. L'adresse correspondante est https://movie.douban.com/top250?start. =xxx Si xxx est ici 0, c'est la première page. Si la valeur de xxx est 100. , nous pouvons alors accéder à la page cinq. 🎜🎜Nous prenons comme exemple l'obtention du titre et de la note d'un film. Le code est le suivant : 🎜rrreee🎜Dans le code ci-dessus, nous utilisons des expressions régulières pour obtenir la balise span dont le corps de la balise est le titre et la note, et utilisons un groupe de capture pour extraire le contenu de la balise. Utilisez zip pour compresser les deux listes, en parcourant tous les titres et classements de films. 🎜🎜Utilisez un proxy IP🎜🎜De nombreux sites Web sont dégoûtés par les robots d'exploration, car ceux-ci consomment une grande partie de la bande passante de leur réseau et créent beaucoup de trafic invalide. Afin de cacher votre identité, vous devez généralement utiliser un proxy IP pour accéder au site Web. Les proxys IP commerciaux (tels que Mushroom Proxy, Sesame Proxy, Fast Proxy, etc.) sont un bon choix. L'utilisation de proxys IP commerciaux peut empêcher le site Web exploré d'obtenir la véritable adresse IP de la source du programme d'exploration, ce qui rend impossible cette opération. utilisez simplement l'adresse IP. Le programme d'exploration est bloqué. 🎜🎜 En prenant Mushroom Agent comme exemple, nous pouvons créer un compte sur le site puis acheter le package correspondant pour obtenir un agent IP commercial. Le proxy Mushroom offre deux façons d'accéder au proxy, à savoir le proxy privé API et le proxy tunnel HTTP. Le premier obtient l'adresse du serveur proxy en demandant l'interface API du proxy Mushroom, et le second utilise directement l'adresse IP et le port du serveur proxy unifié. 🎜🎜Le code d'utilisation du proxy IP est le suivant : 🎜rrreee🎜Parmi eux, username et password sont respectivement le nom d'utilisateur et le mot de passe du compte proxy champignon, ip et port sont respectivement l'adresse IP et le numéro de port du serveur proxy. Notez que différents fournisseurs de proxy peuvent avoir des méthodes d'accès différentes et doivent être modifiés en conséquence en fonction de la situation réelle. 🎜

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer