Maison >développement back-end >Tutoriel Python >Comment créer un pool de proxy anonyme en utilisant Python ? Comment créer un pool de proxy anonyme
Le contenu de cet article est de présenter comment utiliser Python pour créer un pool de proxy anonyme ? Comment créer un pool de proxy anonyme. Il a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer. J'espère qu'il vous sera utile.
J'entends souvent de nombreuses personnes se plaindre que leur adresse IP est bloquée par le site Web en raison d'un trop grand nombre de robots d'exploration, et qu'elles doivent fréquemment utiliser diverses adresses IP proxy, mais comme la plupart des proxys publics sur Internet ne peuvent pas être utilisés, et Vous devez dépenser de l'argent et de l'énergie pour postuler pour un agent VIP, pour ensuite être bloqué après plusieurs rebondissements. Par la présente, écrivez un article sur la façon d'utiliser Python pour créer un pool de proxy afin de réduire les coûts de temps et d'énergie et de réaliser la fonction d'obtention automatique d'adresses IP proxy actives.
Principe de fonctionnement
1. Acquisition de proxy de site Web
1 Grimpez dans la liste IP du site Web proxy gratuit pour tester s'il s'agit d'un site Web proxy gratuit. est disponible et s'il est élevé Anonyme
2 S'ils le sont tous, mettez-les dans la base de données, sinon jetez-les.
3. Répétez l'étape 2
2. Assurez-vous que l'agent défaillant peut être sélectionné dans le pool d'agents dès que possible
1.Obtenez l'IP de la base de données du robot
2Testez la disponibilité et l'anonymat de l'IP
3. disponible et anonyme, conservez-le, sinon jetez-le.4.
Répétez l'étape 1Instructions ①
: Vous pouvez créer un démon robot, qui a cet aspect Amis qui en ont besoin peuvent le rechercher sur Google par eux-mêmes, je ne le présenterai pas ici.
Explication ②: Vous pouvez établir une interface d'informations de proxy externe. Peu importe que vous utilisiez NodeJS ou Flask/Django ou PHP pour l'écrire, je ne la présenterai pas ici. .
Implémentation :Bibliothèques recommandées : requêtes, BeautifulSoup, re, sqlite3.
Parmi elles, la bibliothèque de requêtes est utilisée pour obtenir la page du site Web de l'agent, les bibliothèques BeautifulSoup et re sont utilisées pour obtenir des informations sur l'agent, et sqlite3 est utilisé pour accéder à ces informations.
Si nécessaire (par exemple lorsque le site Web proxy a une stratégie anti-crawler), PhantomJS peut être utilisé pour remplacer les requêtes, ou la bibliothèque correspondante peut être utilisée pour le nettoyage des données (comme le décodage base64).
Ce qui suit est une brève démonstration de chaque partie du code :
La première consiste à sélectionner plusieurs sites Web qui peuvent explorer les proxys et qui ne sont pas facilement bloqués par IP. Ici, liste de proxys. org est utilisé à titre d'exemple :
Ce qui suit est un simple code de classe de framework de pool de proxy, qui fournit l'ajout, la suppression, la détection de connectivité et la détection d'anonymat de la base de données proxy :BASE_URL = "https://proxy-list.org/english/index.php?p=" #IP地址及端口的正则 Re_Pattern_IP = re.compile("(.*):") Re_Pattern_PORT = re.compile(":(.*)") #网站有11页,所以循环11次获取所有代理IP及端口 for startingURL_Param in range(1,11): HTML_ProxyPage = requests.get(BASE_URL+str(startingURL_Param)).content soup = bs(HTML_ProxyPage,"html.parser") for Raw_ProxyInfo in soup.find_all("ul",{"class":None}): #此网站有用Base64简单对代理进行了加密,所以这里对其解码 ip_port = base64.b64decode(Raw_ProxyInfo.find("li",{"class":"proxy"}).text.replace("Proxy('","").replace("')","")) #接下来利用正则从网页数据中提取我们需要的信息 IP = re.findall(Re_Pattern_IP, ip_port)[0] PORT = re.findall(Re_Pattern_PORT, ip_port)[0] TYPE = Raw_ProxyInfo.find("li",{"class":"https"}).textCe qui suit est la base de données proxy. Le code de pooling pour supprimer les "IP invalides":
class ProxyPool: #初始化爬虫池数据库 def __init__(self,ProxyPoolDB): self.ProxyPoolDB = ProxyPoolDB self.conn = sqlite3.connect(self.ProxyPoolDB, isolation_level=None) self.cursor = self.conn.cursor() self.TB_ProxyPool = "TB_ProxyPool" self.cursor.execute("CREATE TABLE IF NOT EXISTS "+self.TB_ProxyPool+"(ip TEXT UNIQUE, port INTEGER, protocol TEXT)") #添加代理IP进代理池的接口 def addProxy(self, IP, PORT, PROTOCOL): self.cursor.execute("INSERT OR IGNORE INTO " + self.TB_ProxyPool+"(ip, port, protocol) VALUES (?,?,?)", [IP,PORT,PROTOCOL]) #检查代理的匿名性及可连接性 def testConnection(self, IP, PORT, PROTOCOL): proxies = { PROTOCOL: IP+":"+PORT } try: OrigionalIP = requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content MaskedIP = requests.get("http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content if OrigionalIP != MaskedIP: return True else: return False except: return False #删除代理IP对应的数据库记录 def delRecord(self, IP): self.cursor.execute("DELETE FROM "+self.TB_ProxyPool+" WHERE ip=?",(IP,))
#循环代理池,逐行测试IP地址端口协议是否可用 def cleanNonWorking(self): for info in self.cursor.execute("SELECT * FROM "+self.TB_ProxyPool).fetchall(): IP = info[0] PORT = str(info[1]) PROTOCOL = info[2].lower() isAnonymous = self.testConnection(IP,PORT,PROTOCOL) if isAnonymous == False: #这条代理的可用性失效了,从数据库里删除 self.delRecord(IP) #通过检测icanhazip.com回显来检测可用性及匿名性 def testConnection(self, IP, PORT, PROTOCOL): proxies = { PROTOCOL: IP+":"+PORT } try: OrigionalIP = requests.get("http://icanhazip.com",timeout=REQ_TIMEOUT).content MaskedIP = requests.get("http://icanhazip.com", timeout=REQ_TIMEOUT,proxies=proxies).content if OrigionalIP != MaskedIP: return True else: return False except: return FalseReflection
Ce projet était lorsque j'utilisais Python pour pratiquer l'écriture manuscrite, en y repensant au niveau actuel, la logique n'est pas assez rigoureuse, les différentes fonctions sont trop couplées et de nombreux paragraphes doivent être réécrits car le code est exécuté. le réseau du campus, la stabilité de la connexion réseau doit également être prise en compte. Cela provoque des relations confuses entre les parties du code.
La méthode de détection de l'anonymat du proxy via icanhazip.com peut être efficace, mais elle ignore l'en-tête HTTP X-Forwarded-For, elle est donc très risquée et doit être améliorée.
Vérifier la validité des agents dans le pool d'agents nécessite du multi-threading, et la solution actuelle est trop inefficace.
Code completLe code de base du pool de proxy est placé dans cet article, dans le but de fournir aux lecteurs des idées et des références pour leur propre implémentation, Ubuntu 16.04 et Kali Le test peut être exécuté avec Python 2.7.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!