>  기사  >  백엔드 개발  >  Python은 프록시 IP를 수집하여 사용 가능한지 확인하고 정기적으로 업데이트합니다.

Python은 프록시 IP를 수집하여 사용 가능한지 확인하고 정기적으로 업데이트합니다.

不言
不言원래의
2018-05-07 11:58:162461검색

이 글은 주로 Python에서 프록시 IP를 수집하고 사용 가능 여부를 판단하고 정기적으로 업데이트하는 방법을 소개합니다. 이제는 필요한 친구들이 참고할 수 있도록 공유합니다.

무료입니다. 인터넷에 있는 IP 주소는 모두 사용할 수 있지만 수동으로 얻기가 너무 번거롭다면 Python을 통해 자동으로 캡처하여 일괄적으로 얻을 수 있습니다.

코드는 다음과 같습니다:

# -*- coding: utf-8 -*-
import re
import urllib2
import json
import os
import time
import socket
class ProxyIp(object):
  def __init__(self):
    self.path = os.path.split(os.path.realpath(__file__))[0]
  # Get latest proxy ip and download to json
  def update_ip(self):
    print 'Update Ip'
    url = 'http://www.ip3366.net/free/'
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    matches = re.findall(
      ur&#39;(\d+.\d+.\d+.\d+)</td>\s+<td>(\d+)</td>\s+<td>.*?</td>\s+<td>(HTTPS?)</td>&#39;,
      response.read(),
      re.I
    )
    ls = []
    for match in matches:
      if self.is_open(match[0], match[1]):
        ls.append({&#39;ip&#39;:match[0], &#39;port&#39;:match[1], &#39;protocol&#39;: match[2]})
    with open(&#39;%s/ip.json&#39; % self.path, &#39;w&#39;) as f:
      json.dump(ls, f)
    return ls
  # whether the ips is last or old.
  def is_last(self):
    m_time = int(os.path.getmtime(&#39;%s/ip.json&#39; % self.path))
    now_time = int(time.time())
    return (now_time - m_time) > 60*60*4 # 4 hours
  @staticmethod
  def is_open(ip, port):
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    try:
      s.connect(ip, int(port))
      return True
    except:
      print &#39;Faild IP: %s:%s&#39; % (ip, port)
      return False
  def get_proxy_ips(self):
    if not self.is_last():
      return self.update_ip()
    else:
      with open(&#39;%s/ip.json&#39; % self.path, &#39;r&#39;) as f:
        return json.load(f)

관련 권장 사항:

Python 컬렉션 - 데이터 저장

python은 블로그에 업로드된 QQ 스크린샷 파일을 수집합니다

위 내용은 Python은 프록시 IP를 수집하여 사용 가능한지 확인하고 정기적으로 업데이트합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.