>백엔드 개발 >파이썬 튜토리얼 >Python의 HTTP 프록시에 대한 자세한 설명

Python의 HTTP 프록시에 대한 자세한 설명

高洛峰
高洛峰원래의
2017-03-21 10:04:452150검색

0x00 서문

다방면에서 널리 사용되는 HTTP 프록시에 대해서는 누구나 잘 알고 있을 것입니다. HTTP 프록시는 순방향 프록시와 역방향 프록시로 구분됩니다. 후자는 일반적으로 사용자에게 방화벽 뒤의 서비스에 대한 액세스를 제공하거나 로드 밸런싱을 위해 사용됩니다. 이 문서에서는 전달 프록시에 대해 설명합니다.

HTTP 프록시의 가장 일반적인 용도는 네트워크 공유, 네트워크 가속화, 네트워크 한계 돌파 등입니다. 또한 HTTP 프록시는 웹 애플리케이션 디버깅Android/IOS APP에서 호출되는 웹 API 모니터링 및 분석에도 흔히 사용됩니다. Fiddler, Charles, Burp Suite 및 mitmproxy 등이 포함됩니다. HTTP 프록시를 사용하면 요청/응답 콘텐츠를 수정하고, 웹 애플리케이션에 추가 기능을 추가하거나, 서버를 변경하지 않고도 애플리케이션 동작을 변경할 수 있습니다.

0x01 HTTP 프록시란

HTTP 프록시는 본질적으로 웹 애플리케이션이며 다른 일반 웹 애플리케이션과 근본적으로 다르지 않습니다. HTTP 프록시는 요청을 받은 후 Header에 있는 Host 필드의 호스트 이름과 Get/POST 요청 주소를 기반으로 대상 호스트를 종합적으로 결정하고 새로운 호스트를 설정합니다. HTTP 요청은 요청 데이터를 전달하고, 수신된 응답 데이터는 클라이언트로 전달됩니다.

요청 주소가 절대 주소인 경우 HTTP 프록시는 주소의 호스트를 사용하고, 그렇지 않으면 헤더의 HOST 필드를 사용합니다. 네트워크 환경이 다음과 같다고 가정하고 간단한 테스트를 해보세요.

  • 192.168.1.2 웹 서버

  • 192.168.1.3 HTTP 프록시 서버

텔넷을 사용하여 테스트

$ telnet 192.168.1.3
GET / HTTP/1.0
HOST: 192.168.1.2

끝에는 두 번의 연속 캐리지 리턴이 필요하며 이는 HTTP 프로토콜 요구 사항입니다. 완료 후 http://192.168.1.2/ 페이지 내용을 받아보실 수 있습니다. 몇 가지 조정을 해보겠습니다. GET 요청을 할 때 절대 주소

$ telnet 192.168.1.3
GET http://httpbin.org/ip HTTP/1.0
HOST: 192.168.1.2

를 가져오세요. HOST도 192.168.1.2로 설정되어 있지만 실행 결과는 http://httpbin.org의 내용을 반환합니다. /ip 페이지도 공용 IP 주소 정보입니다.

위의 테스트 과정에서 볼 수 있듯이 HTTP 프록시는 원본 요청이 프록시 서버로 전송되는 한 그다지 복잡한 것은 아닙니다. HTTP 프록시를 설정할 수 없는 경우 소수의 호스트에 HTTP 프록시가 필요한 시나리오의 경우 가장 간단한 방법은 대상 호스트 도메인 이름의 IP가 프록시 서버를 가리키도록 하는 것입니다. 이는 호스트 파일을 수정하여 달성할 수 있습니다. .

0x02 Python프로그램에서 HTTP 프록시 설정

urllib2/urllib 프록시 설정

urllib2는 매우 강력한 기능을 갖춘 Python 표준 라이브러리이지만 사용하기가 조금 더 쉽습니다. Python 3에서는 urllib2가 더 이상 유지되지 않고 urllib 모듈로 이동되었습니다. urllib2에서는 ProxyHandler를 사용하여 프록시 서버를 설정합니다.

proxy_handler = urllib2.ProxyHandler({'http': '121.193.143.249:80'})
opener = urllib2.build_opener(proxy_handler)
r = opener.open('http://httpbin.org/ip')
print(r.read())

install_opener를 사용하여 구성된 오프너를 전역 환경에 설치하면 모든 urllib2.urlopen이 자동으로 프록시를 사용할 수 있습니다.

urllib2.install_opener(opener)
r = urllib2.urlopen('http://httpbin.org/ip')
print(r.read())

Python 3에서는 urllib를 사용하세요.

proxy_handler = urllib.request.ProxyHandler({'http': 'http://121.193.143.249:80/'})
opener = urllib.request.build_opener(proxy_handler)
r = opener.open('http://httpbin.org/ip')
print(r.read())

requests 프록시 설정

requests는 현재 최고의 HTTP 라이브러리 중 하나이며, http 요청을 생성할 때 제가 가장 많이 사용하는 라이브러리이기도 합니다. API 디자인은 매우 사용자 친화적이고 사용하기 쉽습니다. 요청에 대한 프록시 설정은 매우 간단합니다. 프록시에 대한 {'http': 'x.x.x.x:8080', 'https': 'x.x.x.x:8080'} 형식의 매개변수만 설정하면 됩니다. 그 중 http와 https는 서로 독립적입니다.

In [5]: requests.get('http://httpbin.org/ip', proxies={'http': '121.193.143.249:80'}).json()
Out[5]: {'origin': '121.193.143.249'}

세션의 프록시속성을 직접 설정할 수 있으므로 요청이 있을 때마다 프록시 매개변수를 가져와야 하는 수고를 덜 수 있습니다.

s = requests.session()
s.proxies = {'http': '121.193.143.249:80'}
print(s.get('http://httpbin.org/ip').json())

0x03 HTTP_PROXY / HTTPS_PROXY 환경 변수

urllib2 및 Requests 라이브러리는 모두 HTTP_PROXY 및 HTTPS_PROXY 환경 변수를 인식하고 나면 자동으로 설정됩니다. 프록시를 사용하세요. 이는 코드를 수정하지 않고도 환경 변수에 따라 프록시 서버의 IP 주소와 포트를 조정할 수 있기 때문에 HTTP 프록시로 디버깅할 때 매우 유용합니다. *nix의 대부분의 소프트웨어는 컬, wget, axel, aria2c 등과 같은 HTTP_PROXY 환경 변수 인식도 지원합니다.

$ http_proxy=121.193.143.249:80 python -c 'import requests; print(requests.get("http://httpbin.org/ip").json())'
{u'origin': u'121.193.143.249'}

$ http_proxy=121.193.143.249:80 curl httpbin.org/ip
{
  "origin": "121.193.143.249"
}

IPython 대화형 환경에서는 HTTP 요청을 임시로 디버깅해야 하는 경우가 종종 있습니다. 간단히 os.environ['http_proxy']을 설정하여 HTTP 프록시를 추가/취소할 수 있습니다.

In [245]: os.environ['http_proxy'] = '121.193.143.249:80'
In [246]: requests.get("http://httpbin.org/ip").json()
Out[246]: {u'origin': u'121.193.143.249'}
In [249]: os.environ['http_proxy'] = ''
In [250]: requests.get("http://httpbin.org/ip").json()
Out[250]: {u'origin': u'x.x.x.x'}

0x04 MITM-Proxy

MITM은 중간자 공격(Man-in-the-Middle Attack)에서 유래되었으며, 일반적으로 중간자 공격을 의미합니다. 클라이언트와 서버 사이의 네트워크에 있는 데이터.

mitmproxy是一款Python语言开发的开源中间人代理神器,支持SSL,支持透明代理、反向代理,支持流量录制回放,支持自定义脚本等。功能上同Windows中的Fiddler有些类似,但mitmproxy是一款console程序,没有GUI界面,不过用起来还算方便。使用mitmproxy可以很方便的过滤、拦截、修改任意经过代理的HTTP请求/响应数据包,甚至可以利用它的scripting API,编写脚本达到自动拦截修改HTTP数据的目的。

# test.py
def response(flow):
    flow.response.headers["BOOM"] = "boom!boom!boom!"

上面的脚本会在所有经过代理的Http响应包头里面加上一个名为BOOM的header。用mitmproxy -s 'test.py'命令启动mitmproxy,curl验证结果发现的确多了一个BOOM头。

$ http_proxy=localhost:8080 curl -I 'httpbin.org/get'
HTTP/1.1 200 OK
Server: nginx
Date: Thu, 03 Nov 2016 09:02:04 GMT
Content-Type: application/json
Content-Length: 186
Connection: keep-alive
Access-Control-Allow-Origin: *
Access-Control-Allow-Credentials: true
BOOM: boom!boom!boom!
...

显然mitmproxy脚本能做的事情远不止这些,结合Python强大的功能,可以衍生出很多应用途径。除此之外,mitmproxy还提供了强大的API,在这些API的基础上,完全可以自己定制一个实现了特殊功能的专属代理服务器。

经过性能测试,发现mitmproxy的效率并不是特别高。如果只是用于调试目的那还好,但如果要用到生产环境,有大量并发请求通过代理的时候,性能还是稍微差点。我用twisted实现了一个简单的proxy,用于给公司内部网站增加功能、改善用户体验,以后有机会再和大家分享。

위 내용은 Python의 HTTP 프록시에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.