>  기사  >  백엔드 개발  >  Python 크롤러가 수행할 수 있는 작업

Python 크롤러가 수행할 수 있는 작업

(*-*)浩
(*-*)浩원래의
2019-07-01 10:10:214425검색

전 세계 크롤러의 80%는 Python을 기반으로 개발됩니다. 크롤러 기술을 잘 학습하면 향후 빅데이터 분석, 마이닝, 기계 학습 등에 중요한 데이터 소스를 제공할 수 있습니다.

Python 크롤러가 수행할 수 있는 작업

크롤러란 무엇인가요? (추천 학습: Python 비디오 튜토리얼)

웹 크롤러(웹 스파이더, 웹 로봇이라고도 함, FOAF 커뮤니티에서는 웹 페이지 체이서라고도 함)는 특정 규칙을 따르는 일종의 웹 크롤러입니다. World Wide Web에서 자동으로 정보를 크롤링하는 프로그램 또는 스크립트입니다. 덜 일반적으로 사용되는 다른 이름으로는 개미, 자동 인덱서, 에뮬레이터 또는 웜이 있습니다.

사실 일반인의 말로는 프로그램을 통해 웹페이지에서 원하는 데이터를 얻는 것, 즉 자동으로 데이터를 크롤링하는 것입니다

크롤러는 무엇을 할 수 있나요?

크롤러를 사용하여 크롤링하려는 사진, 동영상 및 기타 데이터를 크롤링할 수 있습니다. 브라우저를 통해 데이터에 액세스할 수 있는 한 크롤러를 통해 얻을 수 있습니다.

크롤러의 본질은 무엇인가요?

브라우저를 시뮬레이션하여 웹페이지를 열고 웹페이지에서 원하는 데이터 부분을 얻습니다.

브라우저가 웹페이지를 여는 과정:

브라우저에 주소를 입력한 후 서버 호스트를 찾으세요. DNS 서버를 통해 서버가 요청을 보내고, 서버는 구문 분석 후 html, js, css 및 기타 파일 내용을 포함하여 결과를 사용자의 브라우저로 보냅니다. 브라우저는 이를 구문 분석하여 최종적으로 결과로 표시합니다. 사용자가 브라우저에서 보는 것

그래서 사용자가 보는 브라우징은 브라우저의 결과가 HTML 코드로 구성됩니다. 우리 크롤러는 HTML 코드를 분석하고 필터링하여 원하는 리소스를 얻는 것입니다.

더 많은 Python 관련 기술 기사를 보려면 Python Tutorial 칼럼을 방문하여 알아보세요!

위 내용은 Python 크롤러가 수행할 수 있는 작업의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.