ホームページ  >  記事  >  バックエンド開発  >  Python はプロキシ IP を収集し、それが利用可能かどうかを判断し、定期的に更新します。

Python はプロキシ IP を収集し、それが利用可能かどうかを判断し、定期的に更新します。

不言
不言オリジナル
2018-05-07 11:58:162462ブラウズ

この記事では、主に Python でプロキシ IP を収集し、それが利用可能かどうかを判断し、定期的に更新する方法を紹介します。必要な友人はそれを参照できるようにします。インターネット上のIPアドレスはどれも使えますが、手動で取得するのが面倒な場合はPythonで自動取得して一括取得することも可能です。

コードは次のとおりです:

# -*- coding: utf-8 -*-
import re
import urllib2
import json
import os
import time
import socket
class ProxyIp(object):
  def __init__(self):
    self.path = os.path.split(os.path.realpath(__file__))[0]
  # Get latest proxy ip and download to json
  def update_ip(self):
    print 'Update Ip'
    url = 'http://www.ip3366.net/free/'
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    matches = re.findall(
      ur&#39;(\d+.\d+.\d+.\d+)</td>\s+<td>(\d+)</td>\s+<td>.*?</td>\s+<td>(HTTPS?)</td>&#39;,
      response.read(),
      re.I
    )
    ls = []
    for match in matches:
      if self.is_open(match[0], match[1]):
        ls.append({&#39;ip&#39;:match[0], &#39;port&#39;:match[1], &#39;protocol&#39;: match[2]})
    with open(&#39;%s/ip.json&#39; % self.path, &#39;w&#39;) as f:
      json.dump(ls, f)
    return ls
  # whether the ips is last or old.
  def is_last(self):
    m_time = int(os.path.getmtime(&#39;%s/ip.json&#39; % self.path))
    now_time = int(time.time())
    return (now_time - m_time) > 60*60*4 # 4 hours
  @staticmethod
  def is_open(ip, port):
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    try:
      s.connect(ip, int(port))
      return True
    except:
      print &#39;Faild IP: %s:%s&#39; % (ip, port)
      return False
  def get_proxy_ips(self):
    if not self.is_last():
      return self.update_ip()
    else:
      with open(&#39;%s/ip.json&#39; % self.path, &#39;r&#39;) as f:
        return json.load(f)

関連する推奨事項:


Pythonコレクション - データストレージ

PythonはブログにアップロードされたQQスクリーンショットファイルを収集します

以上がPython はプロキシ IP を収集し、それが利用可能かどうかを判断し、定期的に更新します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。