Python でのページのデータの読み取りは、urllib2
import urllib2 print urllib2.urlopen('http://www.pythontab.com').read()
を介して簡単に実装できます。
ページの POST リクエスト操作が含まれる場合は、ヘッダー情報、送信された投稿データ、およびページをリクエストする必要があります。
投稿データには urllib.encode() が必要です。これは実際に辞書を "data1=value1&data2=value2" の形式に変換します。
import urllib import urllib2 HEADER = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0', 'Referer' : 'http://202.206.1.163/logout.do' } POSTDATA = { 'data1': 'value1', 'data2': 'value2' } HOSTURL = 'http://xxx.com' enpostdata = urllib.urlencode(POSTDATA) urlrequest = urllib2.Request(hosturl,enpostdata,HEADER) urlresponse = urllib2.urlopen(urlrequest) print urlresponse.read()
リクエスト後、ブラウザはセッションを維持するプロセスを実行します。セッションは Cookie に保存されます。Cookie が失われると、セッションは保存されます。切断されます。
Python で Cookie の保持を設定する必要があります
# cookie set # 用来保持会话 cj = cookielib.LWPCookieJar() cookie_support = urllib2.HTTPCookieProcessor(cj) opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler) urllib2.install_opener(opener)
以下は、使いやすいように上記の知識ポイントをまとめたライブラリ ファイルです:
# filename: analogop.py #!/usr/bin/python # -*-coding:UTF-8 -*- # author: 初行 # qq: 121866673 # mail: zxbd1016@163.com # message: I need a python job # time: 2014/10/8 import urllib import urllib2 import cookielib # cookie set # 用来保持会话 cj = cookielib.LWPCookieJar() cookie_support = urllib2.HTTPCookieProcessor(cj) opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler) urllib2.install_opener(opener) # default header HEADER = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0', 'Referer' : 'http://202.206.1.163/logout.do' } # operate method def geturlopen(hosturl, postdata = {}, headers = HEADER): # encode postdata enpostdata = urllib.urlencode(postdata) # request url urlrequest = urllib2.Request(hosturl, enpostdata, headers) # open url urlresponse = urllib2.urlopen(urlrequest) # return url return urlresponse
リーダーが持っているため、これはテスト ファイルです。環境はテストされていません。自分で構築するか、テストする Web サイトを見つける必要があります:
#filename: test.py from analogop import geturlopen postd = { 'usernum': '2011411111', 'upw': '124569', 'userip': '192.168.10.1', 'token': 'xxx' } urlread = geturlopen('http://127.0.0.1:8000/login/', postd) print urlread.read().decode('utf-8') urlread = geturlopen('http://127.0.0.1:8000/chafen/', {}) print urlread.read().decode('utf-8')