이 기사에서는 Python 소켓을 사용하여 http(s) 요청을 보내는 방법에 대한 관련 정보를 주로 소개합니다. 이 기사에서는 Python을 배우거나 사용할 수 있는 특정 참고 학습 가치가 있습니다. 같이 살펴보시죠
서문
컴퓨터 네트워크 강좌 설계를 쓰다가 겪었던 문제인데 하루 빡빡해서 요약해보겠습니다.
사실 이전에 요청을 사용하여 Python 크롤러를 작성한 적이 있지만 컴퓨터 네트워크에는 하위 수준 구현이 필요합니다. 우연히 [이 기사]1을 보고 소켓을 사용하여 요청을 구현한다는 것을 알게 되었습니다. .
원래는 어렵지 않을 거라 생각했는데, 결국 TCP 연결만 하면 되는 것이었습니다.
원래 웹사이트의 예는 다음과 같습니다.
def fetch(url): sock = socket.socket() # 建立socket sock.connect(('xkcd.com', 80)) # 远程连接 request = 'GET {} HTTP/1.0\r\nHost: xkcd.com\r\n\r\n'.format(url) # 构建请求 sock.send(request.encode('ascii')) # 向socket发送数据 response = b'' chunk = sock.recv(4096) # 从socket接收数据 while chunk: response += chunk chunk = sock.recv(4096) # Page is now downloaded. links = parse_links(response) q.add(links)
제가 크롤링하기로 선택한 웹사이트는 Lianjia입니다. 물론 다른 예도 많이 보았고 패킷을 캡처했습니다. 첫 번째는 내가 읽은 이 기사를 참조한 것입니다: https://segmentfault.com/a/1190000005126160, 소개:
Python은 소켓을 통해 http 요청을 보냅니다
Baidu 홈페이지를 예로 들어 보겠습니다. 소켓을 사용하여 http 요청을 보냅니다.
import socket s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) s.connect(('www.baidu.com',80)) s.send('''GET https://www.baidu.com/ HTTP/1.1 Host: www.baidu.com Connection: keep-alive Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36 Accept-Language: zh-CN,zh;q=0.8 ''') buf=s.recv(1024) while len(buf): print buf buf = s.recv(1024)
소켓 기반 HTTP 프로그래밍은 요청 매개변수에 대한 제어 가능성이 더 뛰어나지만 그만큼 난이도도 더 높습니다. 위에서 전송된 데이터는 피들러 패킷 캡처 프로그램에서 직접 복사됩니다.
위 내용을 바탕으로 다음 코드를 작성하세요.
s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) s.connect(('www.baidu.com',80)) s.send('''GET / HTTP/1.1 Host: zh.lianjia.com Connection: keep-alive Cache-Control: max-age=0 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 Referer: https://www.baidu.com/link?url=4J5Kx--GLdLFESJhkfRePU8Ac_0agnTcOtB-b3kfnX8VNdZ_6TPqOyJGKVXkTczg&ck=6140.3.83.296.315.287.208.155&shh=www.baidu.com&sht=94886267_hao_pg&wd=&eqid=af98b98700060b77000000065aef0524 Accept-Encoding: gzip, deflate, br Accept-Language: zh-CN,zh;q=0.9,en-CA;q=0.8,en;q=0.7 Cookie: lianjia_uuid=ce61c41c-25b0-46d6-a0a0-d57a75ee8706; UM_distinctid=1631f588055f9-0286722badd3ec-b34356b-1fa400-1631f58805657f; _ga=GA1.2.43397143.1525239286; _smt_uid=5ae94e02.558be516; _jzqx=1.1525248800.1525335927.1.jzqsr=zh%2Elianjia%2Ecom|jzqct=/ershoufang/xiangzhouqu/.-; _jzqc=1; _jzqckmp=1; _gid=GA1.2.1028411676.1525594529; select_city=440400; all-lj=c60bf575348a3bc08fb27ee73be8c666; _qzjc=1; CNZZDATA1254525948=963210960-1525238218-https%253A%252F%252Fwww.lianjia.com%252F%7C1525608956; CNZZDATA1255633284=1054798284-1525238580-https%253A%252F%252Fwww.lianjia.com%252F%7C1525608969; lianjia_ssid=c046ddb3-3e66-4809-998a-52ade335fdfc; _qzja=1.1070225156.1525239298260.1525603274282.1525613866775.1525609113492.1525613866775.0.0.0.92.9; _qzjto=29.3.0; _jzqa=1.3750161754444366000.1525239284.1525603274.1525613867.9; _jzqy=1.1525239284.1525613867.3.jzqsr=baidu.jzqsr=baidu; Hm_lvt_9152f8221cb6243a53c83b956842be8a=1525607433,1525607626,1525609113,1525613867; Hm_lpvt_9152f8221cb6243a53c83b956842be8a=1525613867; _qzjb=1.1525613866775.1.0.0.0; _jzqb=1.1.10.1525613867.1; CNZZDATA1255604082=964175865-1525237915-https%253A%252F%252Fwww.lianjia.com%252F%7C1525612833 ''')
결과는 항상 보고됩니다. 400(Bad Request)
, 이곳은 오랫동안 정체되어 있습니다. 최종 해결 방법은 하나씩 보내고 각 뒤에 rn을 추가하는 것입니다. 하나.
sock = socket.socket() sock.connect(('zh.lianjia.com', 80)) sock.send('GET /ershoufang/ HTTP/1.1\r\n'.encode()) sock.send('Host: zh.lianjia.com\r\n'.encode()) sock.send('Connection: keep-alive\r\n'.encode()) sock.send('Cache-Control: no-cache\r\n'.encode()) sock.send('Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8\r\n'.encode()) sock.send('Upgrade-Insecure-Requests: 1\r\n'.encode()) sock.send('User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36\r\n'.encode()) sock.send('Accept-Encoding: gzip, deflate, br\r\n'.encode()) sock.send('Cookie: lianjia_uuid=ce61c41c-25b0-46d6-a0a0-d57a75ee8706; UM_distinctid=1631f588055f9-0286722badd3ec-b34356b-1fa400-1631f58805657f; _ga=GA1.2.43397143.1525239286; _smt_uid=5ae94e02.558be516; _jzqx=1.1525248800.1525335927.1.jzqsr=zh%2Elianjia%2Ecom|jzqct=/ershoufang/xiangzhouqu/.-; _jzqc=1; _jzqy=1.1525239284.1525594526.2.jzqsr=baidu.jzqsr=baidu|jzqct=%E9%93%BE%E5%AE%B6; _jzqckmp=1; _gid=GA1.2.1028411676.1525594529; Hm_lvt_9152f8221cb6243a53c83b956842be8a=1525594526,1525594536,1525594804,1525595210; select_city=440400; all-lj=c60bf575348a3bc08fb27ee73be8c666; _qzjc=1; lianjia_ssid=99306d63-8ee5-a53c-a740-2d3021f3db2f; CNZZDATA1255604082=964175865-1525237915-https%253A%252F%252Fwww.lianjia.com%252F%7C1525602095; _jzqa=1.3750161754444366000.1525239284.1525594526.1525603274.8; CNZZDATA1254525948=963210960-1525238218-https%253A%252F%252Fwww.lianjia.com%252F%7C1525603556; CNZZDATA1255633284=1054798284-1525238580-https%253A%252F%252Fwww.lianjia.com%252F%7C1525603557; Hm_lpvt_9152f8221cb6243a53c83b956842be8a=1525606057; _jzqb=1.9.10.1525603274.1; _qzja=1.1070225156.1525239298260.1525597069547.1525603274282.1525605398368.1525606071025.0.0.0.86.8; _qzjb=1.1525603274282.9.0.0.0; _qzjto=23.2.0\r\n\r\n'.encode())
결과는 항상 상태 코드 301로 리디렉션됩니다! 오랫동안 찾고 있었는데 아직도 이유를 모르겠습니다. 게다가 브라우저 URL 표시줄에 URL을 직접 입력하고 Fiddler를 사용하여 패킷을 캡처했지만 여전히 패킷을 캡처하지 못했습니다. 상태 301. 마지막으로 fiddler's Composer를 사용하여 http://zh.lianjia.com/ershoufang을 입력하고 301과 200을 포착합니다. 아래 그림과 같이 200의 주소는 https://zh.lianjia.com/ershoufang입니다.
이제 알겠습니다. http와 https의 차이 때문입니다. (실제로 응답부분의 Location은 301 상태코드에서 볼 수 있는데, s가 너무 눈에 띄지 않아서 눈치채지 못해서 오랫동안 막히더군요)
다음 단계는 https 요청을 보내는 방법을 알고 싶습니다. 다음은 소켓을 설정하고 연결하는 부분을 주로 변경한 코드이다. 포트 번호는 443입니다. 참고 기사는 여기에 있습니다
sock = ssl.wrap_socket(socket.socket()) sock.connect(('zh.lianjia.com', 443))
제가 많은 곳을 깊이 이해하지 못하는 것 같고, 학교에서는 당분간 응용 계층에 대해 이야기하지 않았습니다. 시간이 되면 다시 공부해 보도록 하겠으며, 잘못된 점이나 누락된 점은 지적해 주시기 바랍니다.
관련 권장사항:
Python을 사용하여 쉘 스크립트를 실행하고 매개변수 및 하위 프로세스의 기본 사용을 동적으로 전송
위 내용은 Python 소켓을 사용하여 http(s) 요청 방법 보내기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!