집 >백엔드 개발 >파이썬 튜토리얼 >파이썬 크롤러를 배우는 것이 어렵나요?

파이썬 크롤러를 배우는 것이 어렵나요?

silencement원래의: 2019-06-12 15:18:564071검색

간단히 말하면, 인터넷은 사이트와 네트워크 장치로 구성된 대규모 네트워크입니다. 우리는 브라우저를 통해 사이트에 액세스하고, 사이트는 브라우저에 의해 HTML, JS 및 CSS 코드를 구문 분석하고 렌더링합니다. 그리고 웹페이지가 우리에게 보여질 것입니다.

크롤러란 무엇인가요?

인터넷을 큰 거미줄에 비유하면 거미줄의 각 노드에 데이터가 저장되는데, 크롤러는 네트워크를 따라 먹이(데이터)를 잡아먹는 작은 거미를 말합니다. 웹사이트에 대한 요청을 시작하고, 리소스를 획득하고, 기술적 관점에서 유용한 데이터를 분석 및 추출하고, 프로그램을 통해 웹사이트를 요청하는 브라우저의 동작을 시뮬레이션하고, HTML 코드/JSON 데이터/바이너리 데이터를 반환하는 프로그램입니다. (사진,동영상) 홈페이지에서 돌려받은 지역에 올라가서 필요한 데이터를 추출하고 저장해서 사용하세요.

크롤러의 기본 프로세스

사용자가 네트워크 데이터를 얻는 방법:

방법 1: 브라우저가 요청 제출 ---> 웹 페이지 코드 다운로드 ---> 페이지로 구문 분석

방법 2: 브라우저 보내기 요청(웹 페이지 코드 가져오기) -> 유용한 데이터 추출 -> 데이터베이스나 파일에 저장

크롤러가 해야 할 일은 방법 2입니다.

요청 시작

대상 사이트에 대한 요청 시작, 즉 요청 보내기

요청에는 요청 헤더, 요청 본문 등이 포함됩니다.

요청 모듈 결함: JS 및 CSS 코드를 실행할 수 없습니다.

응답 콘텐츠 가져오기

서버가 정상적으로 응답할 수 있으면 응답을 받게 됩니다

응답에는 html, json, 그림, 비디오 등이 포함됩니다.

Parse 콘텐츠

Parse html 데이터: 정규식(RE 모듈), Beautifulsoup와 같은 타사 구문 분석 라이브러리 , pyquery 등

json 데이터 구문 분석: json 모듈

바이너리 데이터 구문 분석: wb 형식으로 파일 쓰기

데이터 저장

데이터베이스(MySQL, Mongdb, Redis)

파일

위 내용은 파이썬 크롤러를 배우는 것이 어렵나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python mysql json css 正则表达式 html beautifulsoup JS redis 数据库 http

성명：

이전 기사：파이썬으로 마이크로컨트롤러를 개발할 수 있나요?다음 기사：파이썬으로 마이크로컨트롤러를 개발할 수 있나요?