>  기사  >  백엔드 개발  >  파이썬 크롤러를 배우는 것이 어렵나요?

파이썬 크롤러를 배우는 것이 어렵나요?

silencement
silencement원래의
2019-06-12 15:18:563917검색

간단히 말하면, 인터넷은 사이트와 네트워크 장치로 구성된 대규모 네트워크입니다. 우리는 브라우저를 통해 사이트에 액세스하고, 사이트는 브라우저에 의해 HTML, JS 및 CSS 코드를 구문 분석하고 렌더링합니다. 그리고 웹페이지가 우리에게 보여질 것입니다.

파이썬 크롤러를 배우는 것이 어렵나요?

크롤러란 무엇인가요?

인터넷을 큰 거미줄에 비유하면 거미줄의 각 노드에 데이터가 저장되는데, 크롤러는 네트워크를 따라 먹이(데이터)를 잡아먹는 작은 거미를 말합니다. 웹사이트에 대한 요청을 시작하고, 리소스를 획득하고, 기술적 관점에서 유용한 데이터를 분석 및 추출하고, 프로그램을 통해 웹사이트를 요청하는 브라우저의 동작을 시뮬레이션하고, HTML 코드/JSON 데이터/바이너리 데이터를 반환하는 프로그램입니다. (사진,동영상) 홈페이지에서 돌려받은 지역에 올라가서 필요한 데이터를 추출하고 저장해서 사용하세요.

크롤러의 기본 프로세스

사용자가 네트워크 데이터를 얻는 방법:

방법 1: 브라우저가 요청 제출 ---> 웹 페이지 코드 다운로드 ---> 페이지로 구문 분석

방법 2: 브라우저 보내기 요청(웹 페이지 코드 가져오기) -> 유용한 데이터 추출 -> 데이터베이스나 파일에 저장

크롤러가 해야 할 일은 방법 2입니다.

요청 시작

대상 사이트에 대한 요청 시작, 즉 요청 보내기

요청에는 요청 헤더, 요청 본문 등이 포함됩니다.

요청 모듈 결함: JS 및 CSS 코드를 실행할 수 없습니다.

응답 콘텐츠 가져오기

서버가 정상적으로 응답할 수 있으면 응답을 받게 됩니다

응답에는 html, json, 그림, 비디오 등이 포함됩니다.

Parse 콘텐츠

Parse html 데이터: 정규식(RE 모듈), Beautifulsoup와 같은 타사 구문 분석 라이브러리 , pyquery 등

json 데이터 구문 분석: json 모듈

바이너리 데이터 구문 분석: wb 형식으로 파일 쓰기

데이터 저장

데이터베이스(MySQL, Mongdb, Redis)

파일

위 내용은 파이썬 크롤러를 배우는 것이 어렵나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.