크롤러에 일반적으로 사용되는 Python 모듈:
관련 권장 사항: python 크롤러 라이브러리 및 관련 도구
Python 표준 라이브러리 - urllib 모듈
기능: URL 및 http 프로토콜 열기
참고: python 3 .x의 urllib 라이브러리와 urilib2 라이브러리가 urllib 라이브러리에 병합되었습니다. 그 중 urllib2.urlopen()은 urllib.request.urlopen()이 되고, urllib2.Request()는 urllib.request.Request()가 됩니다
urllib는 웹페이지 반환을 요청합니다
urllib.request.urlopen
urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])
urllib . requset.urlioen은 HTTP(기본), HTTPS, FTP, 프로토콜 URL을 열 수 있습니다.
ca 인증
data 포스트 모드에서 URL을 제출할 때
url을 사용하여 네트워크 주소를 제출하세요(전체 프런트 엔드에는 프로토콜 이름이 필요합니다) 백엔드에는 포트 http: /192.168.1.1:80이 필요합니다.
timeout 시간 초과 설정
함수 반환 객체에는 세 가지 추가 메서드가 있습니다.
geturl()은 응답의 URL 정보를 반환합니다
URL 리디렉션과 함께 일반적으로 사용됩니다. info()는 응답의 기본 정보를 반환합니다.
getcode()는 응답의 상태 코드를 반환합니다.
예:
#coding:utf-8 import urllib.request import time import platform #清屏函数(无关紧要 可以不写) def clear(): print(u"内容过多 3秒后清屏") time.sleep(3) OS = platform.system() if (OS == u'Windows'): os.system('cls') else: os.system('clear') #访问函数 def linkbaidu(): url = 'http://www.baidu.com' try: response = urllib.request.urlopen(url,timeout=3) except urllib.URLError: print(u'网络地址错误') exit() with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp: response = urllib.request.urlopen(url,timeout=3) fp.write(response.read()) print(u'获取url信息,response.geturl()\n:%s'%response.getrul()) print(u'获取返回代码,response.getcode()\n:%s' % response.getcode()) print(u'获取返回信息,response.info()\n:%s' % response.info()) print(u"获取的网页信息经存与baidu.txt") if __name__ =='main': linkbaidu()
Python 표준 라이브러리 – 로깅 모듈
로깅 모듈은 인쇄 기능의 기능을 대체할 수 있습니다. 표준 출력을 로그 파일에 저장할 수 있습니다.
re 모듈
정규식
sys 모듈
시스템 관련 모듈
sys.argv(모든 항목을 포함하는 목록 반환) 명령줄)
sys.exit(프로그램 종료)
Scrapy 프레임워크
urllib와 re는 함께 사용하기에는 너무 뒤떨어져 있습니다. 이제 주류는 Scrapy 프레임워크입니다
더 많은 Python 관련 기술 기사를 보려면 다음을 방문하세요. Python Tutorial 칼럼을 통해 배워보세요!
위 내용은 Python 크롤러는 어떤 모듈을 호출해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!