데이터를 크롤링한다는 것은 웹 크롤러 프로그램을 사용하여 텍스트, 비디오, 사진 및 기타 데이터와 같은 웹사이트에서 필요한 콘텐츠 정보를 얻는 것을 의미합니다. 웹 크롤러(웹 스파이더)는 특정 규칙에 따라 World Wide Web에서 자동으로 정보를 크롤링하는 프로그램 또는 스크립트입니다.
데이터 크롤링에 대한 지식을 학습하면 무슨 소용이 있나요?
예: 누구나 자주 사용하는 검색 엔진(Google, Sogou);
사용자가 Google 검색 엔진에서 해당 키워드를 검색하면 Google은 해당 키워드를 분석하고 "포함된" 웹 페이지부터 시작합니다. 사용자에게 가장 적합한 가능한 항목을 찾아 사용자에게 제시한 다음 이러한 웹 페이지를 얻는 방법은 크롤러가 수행해야 하는 작업입니다. 물론 가장 가치 있는 웹 페이지를 사용자에게 푸시하는 방법도 필요합니다. 데이터 마이닝 지식이 포함된 해당 알고리즘과 결합됩니다.
예를 들어 소규모 애플리케이션의 경우 일주일/월의 수정 주문 수, 결함 수를 계산해야 하는 테스트 작업량을 계산합니다. Jira에 기록된 특정 콘텐츠
및 최근 월드컵이 한창 진행 중입니다. 각 플레이어/국가의 데이터를 계산하고 다른 용도로 데이터를 저장하려는 경우
분석도 할 수 있습니다. 자신의 관심사와 취미(통계에 관한 책/통계에 관한 책) 영화의 인기)를 기반으로 하려면 기존 웹 페이지의 데이터를 크롤링하고 얻은 데이터를 기반으로 몇 가지 구체적인 분석/통계 작업을 수행해야 합니다.
간단한 크롤러를 배우려면 어떤 기본 지식이 필요한가요?
기본 지식을 두 부분으로 나눕니다.
1. 프론트엔드 기본 지식
HTML/JSON, Ajax
참고:
http://www.w3school.com.cn/h. asp
http://www.w3school.com.cn/ajax/
http://www.w3school.com.cn/json/
https://www.php.cn/course/list/1 .html
https://www.php.cn/course/list/2.html
https://www.html.cn/
2. Python 프로그래밍 관련 지식
(1) 기본 지식 of Python
기본 구문 지식, 사전, 목록, 함수, 정규식, JSON 등
참고 자료:
http://www.runoob.com/python3/python3-tutorial.html
https: //www.py.cn/
https://www.php.cn/course/list/30.html
(2) Python에서 일반적으로 사용되는 라이브러리:
Python의 urllib 라이브러리 사용(저는 이 모듈에서는 urlretrieve 기능이 더 있습니다. 일부는 획득한 일부 리소스(문서/그림/mp3/비디오 등)를 저장하는 데 주로 사용합니다.)
Python의 pyMysql 라이브러리(데이터베이스 연결 및 추가, 삭제, 수정 및 쿼리)
python 모듈 bs4 (CSS 선택기, html 트리 모양 구조 domTree 지식 등 필요, css 선택기/html 태그/속성에 따라 필요한 콘텐츠 찾기)
python의 요청(이름에서 알 수 있듯이 이 모듈은 요청 요청을 보내는 데 사용됩니다/ 응답 객체를 얻기 위한 POST/Get 등)
Python의 os 모듈(이 모듈은 파일 및 디렉터리 처리를 위한 매우 풍부한 방법을 제공합니다. os.path.join/exists 함수가 더 일반적으로 사용됩니다)
참고 자료 : 이 부분은 해당 모듈의 인터페이스 API 문서를 참고하시면 됩니다
추가 정보:
웹 크롤러는 검색 엔진용 월드 와이드 웹에서 웹 페이지를 자동으로 추출하는 프로그램입니다. 검색 엔진의 중요한 구성 요소입니다.
기존 크롤러는 하나 또는 여러 초기 웹페이지의 URL에서 시작하여 초기 웹페이지의 URL을 획득하고, 웹페이지를 크롤링하는 과정에서 계속해서 현재 페이지에서 새 URL을 추출하여 대기열에 넣습니다. 시스템의 특정 정지 조건이 충족될 때까지.
특정 웹페이지 분석 알고리즘에 따라 주제와 관련 없는 링크를 필터링하고 유용한 링크를 유지하며 크롤링 대기 중인 URL 대기열에 넣어야 하는 집중형 크롤러의 작업 흐름은 더 복잡합니다. 그런 다음 특정 검색 전략에 따라 대기열에서 다음에 크롤링할 웹 페이지 URL을 선택하고 시스템의 특정 조건에 도달하면 중지될 때까지 위 프로세스를 반복합니다.
또한 크롤러가 크롤링한 모든 웹 페이지는 시스템에 의해 저장되며 집중적인 크롤러에 대한 후속 쿼리 및 검색을 위한 특정 분석, 필터링 및 색인화를 거치게 됩니다. 이 프로세스 중에 얻은 분석 결과는 피드백 및 지침일 수도 있습니다. 향후 크롤링 프로세스에 대해 설명합니다.
일반 웹 크롤러와 비교하여 집중형 크롤러는 세 가지 주요 문제를 해결해야 합니다.
(1) 크롤링 대상에 대한 설명 또는 정의
(2) 웹 페이지 또는 데이터 분석 및 필터링
(3 ) 검색; URL 전략.
추천 튜토리얼: "python 튜토리얼"
위 내용은 데이터 크롤링은 무엇을 의미하나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!