python 爬蟲常用模組:
相關推薦:python爬蟲庫以及相關利器
Python標準庫——urllib模組
功能:開啟URL和http協定之類
註:python 3.x中urllib函式庫和urilib2函式庫合併成了urllib函式庫。 其中urllib2.urlopen()變成了urllib.request.urlopen(),urllib2.Request()變成了urllib.request.Request()
urllib請求返回網頁
#urllib. request.urlopen
urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])
urllib.requset.urlioen可以開啟HTTP(主要)、HTTPS、FTP、協定的URL
ca 驗證
#data 以post方式提交URL時使用
url 提交網路位址(全程前端需協定名稱後端需連接埠http:/192.168.1.1:80)
timeout 逾時時間設定
函數傳回對象有三個額外的方法
geturl() 返回response的url訊息
常用與url重定向info()返回response的基本資訊
getcode()傳回response的狀態碼
範例:
#coding:utf-8 import urllib.request import time import platform #清屏函数(无关紧要 可以不写) def clear(): print(u"内容过多 3秒后清屏") time.sleep(3) OS = platform.system() if (OS == u'Windows'): os.system('cls') else: os.system('clear') #访问函数 def linkbaidu(): url = 'http://www.baidu.com' try: response = urllib.request.urlopen(url,timeout=3) except urllib.URLError: print(u'网络地址错误') exit() with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp: response = urllib.request.urlopen(url,timeout=3) fp.write(response.read()) print(u'获取url信息,response.geturl()\n:%s'%response.getrul()) print(u'获取返回代码,response.getcode()\n:%s' % response.getcode()) print(u'获取返回信息,response.info()\n:%s' % response.info()) print(u"获取的网页信息经存与baidu.txt") if __name__ =='main': linkbaidu()
Python標準函式庫–logging模組
logging模組能夠取代print函數的功能,將標準輸出到日誌文件儲存起來,利用loggin模組可以部分取代debug
re模組
正規表示式
sys模組
系統相關模組
sys.argv(傳回一個列表,包含所有的命令列)
sys.exit(退出程式)
Scrapy框架
urllib和re配合使用已經太落後,現在主流的是Scrapy框架
更多Python相關技術文章,請訪問Python教程專欄進行學習!
以上是python爬蟲需要呼叫什麼模組的詳細內容。更多資訊請關注PHP中文網其他相關文章!