인터넷의 급속한 발전으로 인해 이 시대에는 점점 더 많은 데이터가 넘쳐나고 있습니다. 데이터를 획득하고 처리하는 것은 우리 삶의 필수적인 부분이 되었으며, 시대가 요구하는 대로 크롤러가 등장했습니다.
다양한 언어로 크롤링이 가능하지만 python 기반 크롤러가 더 간결하고 편리합니다. . Crawler는 또한 Python 언어의 필수적인 부분이 되었습니다. 그렇다면 크롤러를 통해 어떤 종류의 데이터를 얻을 수 있을까요? 어떤 분석방법이 있나요?
이전 글에서 소개드린 기본 크롤러 프로세스 요청 및 응답 소개# 🎜🎜#, 이 글에서는 크롤러가 얻을 수 있는 데이터의 종류와 구체적인 분석 방법을 소개합니다.
어떤 종류의 데이터를 캡처할 수 있나요?
웹 페이지 텍스트: HTML 문서, Ajax에서 로드한 Json 형식 텍스트 등
사진, 비디오 등: 바이너리 파일을 얻으면 사진이나 비디오 형식으로 저장하세요.
요청이 가능한 한 다른 파일도 얻을 수 있습니다.
Demo
import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers) print(resp.content) # 二进制文件使用content # 保存图片 with open('logo.gif','wb') as f: f.write(resp.content) print('Ok')
성공적으로 실행하면 다음의 바이너리를 볼 수 있습니다. 인쇄된 이미지 데이터가 성공적으로 저장되고 인쇄될 수 있습니다. 이때 폴더를 열면 다운로드한 사진을 볼 수 있습니다. 이 몇 줄의 코드는 단순히 크롤러가 파일을 저장하는 과정을 보여줍니다. 구문 분석 방법은 무엇입니까?
간단한 페이지 문서와 같은 직접 처리는 일부 공간 데이터만 제거합니다.
#🎜 🎜 #Json 구문 분석, Ajax 로드 페이지 처리 #BeautifulSoup 라이브러리; 🎜#PyQuery
XPath.
요약#🎜🎜 ## 🎜🎜#
이것을 보고 크롤러의 기본 작동 원리를 이미 명확하게 이해하셨나요? 물론, 로마는 하루아침에 이루어지지 않습니다. 충분한 경험을 축적한다면 반드시 파충류의 달인이 될 것입니다. 제가 공유한 관련 정보를 읽으면 모두가 성공할 것이라고 믿습니다.위 내용은 크롤러는 어떤 종류의 데이터를 얻을 수 있으며, 구체적인 분석 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!