간단히 말하면, 인터넷은 사이트와 네트워크 장치로 구성된 대규모 네트워크입니다. 우리는 브라우저를 통해 사이트에 액세스하고, 사이트는 브라우저에 의해 HTML, JS 및 CSS 코드를 구문 분석하고 렌더링합니다. 그리고 웹페이지가 우리에게 보여질 것입니다.
크롤러란 무엇인가요?
인터넷을 큰 거미줄에 비유하면 거미줄의 각 노드에 데이터가 저장되는데, 크롤러는 네트워크를 따라 먹이(데이터)를 잡아먹는 작은 거미를 말합니다. 웹사이트에 대한 요청을 시작하고, 리소스를 획득하고, 기술적 관점에서 유용한 데이터를 분석 및 추출하고, 프로그램을 통해 웹사이트를 요청하는 브라우저의 동작을 시뮬레이션하고, HTML 코드/JSON 데이터/바이너리 데이터를 반환하는 프로그램입니다. (사진,동영상) 홈페이지에서 돌려받은 지역에 올라가서 필요한 데이터를 추출하고 저장해서 사용하세요.
크롤러의 기본 프로세스
사용자가 네트워크 데이터를 얻는 방법:
방법 1: 브라우저가 요청 제출 ---> 웹 페이지 코드 다운로드 ---> 페이지로 구문 분석
방법 2: 브라우저 보내기 요청(웹 페이지 코드 가져오기) -> 유용한 데이터 추출 -> 데이터베이스나 파일에 저장
크롤러가 해야 할 일은 방법 2입니다.
요청 시작
대상 사이트에 대한 요청 시작, 즉 요청 보내기
요청에는 요청 헤더, 요청 본문 등이 포함됩니다.
요청 모듈 결함: JS 및 CSS 코드를 실행할 수 없습니다.
응답 콘텐츠 가져오기
서버가 정상적으로 응답할 수 있으면 응답을 받게 됩니다
응답에는 html, json, 그림, 비디오 등이 포함됩니다.
Parse 콘텐츠
Parse html 데이터: 정규식(RE 모듈), Beautifulsoup와 같은 타사 구문 분석 라이브러리 , pyquery 등
json 데이터 구문 분석: json 모듈
바이너리 데이터 구문 분석: wb 형식으로 파일 쓰기
데이터 저장
데이터베이스(MySQL, Mongdb, Redis)
파일
위 내용은 파이썬 크롤러를 배우는 것이 어렵나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!