집 >백엔드 개발 >파이썬 튜토리얼 >Python 크롤러는 어떤 모듈을 호출해야 합니까?

Python 크롤러는 어떤 모듈을 호출해야 합니까?

尚원래의: 2019-07-11 09:13:044229검색

크롤러에 일반적으로 사용되는 Python 모듈:

관련 권장 사항: python 크롤러 라이브러리 및 관련 도구

Python 표준 라이브러리 - urllib 모듈

기능: URL 및 http 프로토콜 열기

참고: python 3 .x의 urllib 라이브러리와 urilib2 라이브러리가 urllib 라이브러리에 병합되었습니다. 그 중 urllib2.urlopen()은 urllib.request.urlopen()이 되고, urllib2.Request()는 urllib.request.Request()가 됩니다

urllib는 웹페이지 반환을 요청합니다

urllib.request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])

urllib . requset.urlioen은 HTTP(기본), HTTPS, FTP, 프로토콜 URL을 열 수 있습니다.

ca 인증

data 포스트 모드에서 URL을 제출할 때

url을 사용하여 네트워크 주소를 제출하세요(전체 프런트 엔드에는 프로토콜 이름이 필요합니다) 백엔드에는 포트 http: /192.168.1.1:80이 필요합니다.

timeout 시간 초과 설정

함수 반환 객체에는 세 가지 추가 메서드가 있습니다.

geturl()은 응답의 URL 정보를 반환합니다

URL 리디렉션과 함께 일반적으로 사용됩니다. info()는 응답의 기본 정보를 반환합니다.

getcode()는 응답의 상태 코드를 반환합니다.

예:

#coding:utf-8
import urllib.request
import time
import platform


#清屏函数(无关紧要 可以不写)
def clear():
    print(u"内容过多 3秒后清屏")
    time.sleep(3)
    OS = platform.system()
    if (OS == u&#39;Windows&#39;):
        os.system(&#39;cls&#39;)
    else:
        os.system(&#39;clear&#39;)
#访问函数
def linkbaidu():
    url = &#39;http://www.baidu.com&#39;
    try:
        response = urllib.request.urlopen(url,timeout=3)
    except urllib.URLError:
        print(u&#39;网络地址错误&#39;)
        exit()
    with open(&#39;/home/ifeng/PycharmProjects/pachong/study/baidu.txt&#39;,&#39;w&#39;) as fp:
        response = urllib.request.urlopen(url,timeout=3)
        fp.write(response.read())
    print(u&#39;获取url信息，response.geturl()\n:%s&#39;%response.getrul())
    print(u&#39;获取返回代码，response.getcode()\n:%s&#39; % response.getcode())
    print(u&#39;获取返回信息，response.info()\n:%s&#39; % response.info())
    print(u"获取的网页信息经存与baidu.txt")


if __name__ ==&#39;main&#39;:
    linkbaidu()

Python 표준 라이브러리 – 로깅 모듈

로깅 모듈은 인쇄 기능의 기능을 대체할 수 있습니다. 표준 출력을 로그 파일에 저장할 수 있습니다.

re 모듈

정규식

sys 모듈

시스템 관련 모듈

sys.argv(모든 항목을 포함하는 목록 반환) 명령줄)

sys.exit(프로그램 종료)

Scrapy 프레임워크

urllib와 re는 함께 사용하기에는 너무 뒤떨어져 있습니다. 이제 주류는 Scrapy 프레임워크입니다

더 많은 Python 관련 기술 기사를 보려면 다음을 방문하세요. Python Tutorial 칼럼을 통해 배워보세요!

위 내용은 Python 크롤러는 어떤 모듈을 호출해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python 正则表达式 scrapy print Logging 对象 http https

성명：

이전 기사：파이썬에서 pow는 무엇을 의미합니까?다음 기사：파이썬에서 pow는 무엇을 의미합니까?