인터넷과 빅데이터 시대의 도래로 점점 더 많은 데이터가 동적으로 생성되어 웹페이지에 표시되고 있으며, 이는 데이터 수집 및 처리에 새로운 과제를 안겨줍니다. 이때 웹 크롤러 기술이 탄생했다. 웹 크롤러 기술은 프로그램을 작성해 인터넷 상에서 자동으로 정보를 얻는 기술을 말한다. 강력한 프로그래밍 언어인 Python은 배우기 쉽고, 효율적이고, 사용하기 쉽다는 장점이 있으며, 웹 크롤러 개발에서 중요한 선택이 되었습니다.
이 글에서는 요청 모듈, 파싱 모듈, 저장 모듈 등 Python에서 일반적으로 사용되는 웹 크롤러 기술을 체계적으로 소개합니다.
1. 요청 모듈
요청 모듈은 브라우저를 시뮬레이션하여 요청을 보내고 필요한 페이지 콘텐츠를 얻을 수 있습니다. 일반적으로 사용되는 요청 모듈에는 urllib, Requests 및 Selenium이 포함됩니다.
urllib는 Python에 포함된 HTTP 요청 모듈로, URL을 기반으로 네트워크에서 웹페이지 데이터를 얻을 수 있으며 URL 인코딩, 요청 헤더 수정, 게시, 쿠키 등의 기능을 지원합니다. 일반적으로 사용되는 함수로는 urllib.request.urlopen(), urllib.request.urlretrieve(), urllib.request.build_opener() 등이 있습니다.
urllib.request.urlopen() 함수를 통해 웹사이트의 소스 코드를 얻을 수 있습니다.
import urllib.request response = urllib.request.urlopen('http://www.example.com/') source_code = response.read().decode('utf-8') print(source_code)
Requests는 urllib보다 사용하기 쉽고 간단하며 쿠키를 지원하는 Python 타사 라이브러리입니다. , POST, 프록시 및 기타 기능. 일반적으로 사용되는 함수에는 요청.get(), 요청.포스트(), 요청.요청() 등이 있습니다.
requests.get() 함수를 통해 응답 내용을 얻을 수 있습니다.
import requests response = requests.get('http://www.example.com/') source_code = response.text print(source_code)
Selenium은 웹 크롤러에서 브라우저를 시작하여 인간 작업을 시뮬레이션할 수 있습니다. JS에서 동적으로 생성된 페이지 데이터와 같은 Get 기능을 달성했습니다. 일반적으로 사용되는 함수에는 selenium.webdriver.Chrome(), selenium.webdriver.Firefox(), selenium.webdriver.PhantomJS() 등이 있습니다.
Selenium을 통해 웹페이지 소스 코드 가져오기:
from selenium import webdriver browser = webdriver.Chrome() # 打开Chrome浏览器 browser.get('http://www.example.com/') source_code = browser.page_source # 获取网页源代码 print(source_code)
2. 구문 분석 모듈
웹 페이지 소스 코드를 가져온 후 다음 단계는 파일을 구문 분석하는 것입니다. Python에서 일반적으로 사용되는 구문 분석 모듈에는 정규식, BeautifulSoup 및 PyQuery가 포함됩니다.
정규식은 패턴에 따라 문자열을 일치시키고 필요한 데이터를 빠르게 추출할 수 있는 마술적이고 강력한 도구입니다. Python의 re 모듈을 사용하여 정규식을 호출할 수 있습니다.
예를 들어 웹 페이지의 모든 링크를 추출합니다.
import re source_code = """ <!DOCTYPE html> <html> <head> <title>Example</title> </head> <body> <a href="http://www.example.com/">example</a> <a href="http://www.google.com/">google</a> </body> </html> """ pattern = re.compile('<a href="(.*?)">(.*?)</a>') # 匹配所有链接 results = re.findall(pattern, source_code) for result in results: print(result[0], result[1])
Beautiful Soup은 HTML 파일이나 XML 파일을 트리 구조로 구문 분석하여 HTML/XML 파일 데이터를 쉽게 얻을 수 있는 Python 라이브러리입니다. . 다양한 파서를 지원하며, 일반적으로 사용되는 파서는 Python의 내장 html.parser, lxml 및 html5lib입니다.
예를 들어 웹페이지의 모든 링크를 구문 분석합니다.
from bs4 import BeautifulSoup source_code = """ <!DOCTYPE html> <html> <head> <title>Example</title> </head> <body> <a href="http://www.example.com/">example</a> <a href="http://www.google.com/">google</a> </body> </html> """ soup = BeautifulSoup(source_code, 'html.parser') links = soup.find_all('a') for link in links: print(link.get('href'), link.string)
PyQuery는 HTML 문서를 jQuery와 유사한 구조로 변환하는 jQuery와 유사한 Python 라이브러리이며 다음을 통해 웹페이지의 콘텐츠를 직접 얻을 수 있습니다. CSS 선택기 요소. lxml 라이브러리에 따라 다릅니다.
예를 들어 웹 페이지의 모든 링크를 구문 분석합니다.
from pyquery import PyQuery as pq source_code = """ <!DOCTYPE html> <html> <head> <title>Example</title> </head> <body> <a href="http://www.example.com/">example</a> <a href="http://www.google.com/">google</a> </body> </html> """ doc = pq(source_code) links = doc('a') for link in links: print(link.attrib['href'], link.text_content())
3. 저장 모듈
필요한 데이터를 얻은 후 다음 단계는 데이터를 로컬 또는 데이터베이스에 저장하는 것입니다. Python에서 일반적으로 사용되는 저장 모듈에는 파일 모듈, MySQLdb, pymongo 등이 포함됩니다.
파일 모듈은 데이터를 로컬에 저장할 수 있습니다. 일반적으로 사용되는 파일 모듈에는 CSV, JSON, Excel 등이 있습니다. 그 중 CSV 모듈은 데이터를 CSV 파일에 쓸 수 있는 가장 일반적으로 사용되는 파일 모듈 중 하나입니다.
예를 들어, CSV 파일에 데이터를 씁니다.
import csv filename = 'example.csv' data = [['name', 'age', 'gender'], ['bob', 25, 'male'], ['alice', 22, 'female']] with open(filename, 'w', encoding='utf-8', newline='') as f: writer = csv.writer(f) for row in data: writer.writerow(row)
MySQLdb는 MySQL 데이터베이스에 연결하기 위한 Python용 라이브러리이며 트랜잭션 및 커서와 같은 여러 기능을 지원합니다.
예를 들어 MySQL 데이터베이스에 데이터를 저장합니다.
import MySQLdb conn = MySQLdb.connect(host='localhost', port=3306, user='root', passwd='password', db='example', charset='utf8') cursor = conn.cursor() data = [('bob', 25, 'male'), ('alice', 22, 'female')] sql = "INSERT INTO users (name, age, gender) VALUES (%s, %s, %s)" try: cursor.executemany(sql, data) conn.commit() except: conn.rollback() cursor.close() conn.close()
pymongo는 MongoDB 데이터베이스에 연결하기 위한 Python용 라이브러리로 추가, 삭제, 수정 및 쿼리와 같은 다양한 작업을 지원합니다. .
예를 들어 MongoDB 데이터베이스에 데이터를 저장합니다:
import pymongo client = pymongo.MongoClient('mongodb://localhost:27017/') db = client['example'] collection = db['users'] data = [{'name': 'bob', 'age': 25, 'gender': 'male'}, {'name': 'alice', 'age': 22, 'gender': 'female'}] collection.insert_many(data)
IV. 요약
Python의 웹 크롤러 기술에는 요청 모듈, 구문 분석 모듈 및 저장 모듈이 포함되며, 그 중 요청 모듈은 웹 크롤러의 핵심입니다. 파싱 모듈은 데이터를 얻는 중요한 채널이며, 저장 모듈은 데이터를 유지하는 유일한 방법입니다. Python은 웹 크롤러 개발에서 배우기 쉽고 효율적이며 사용하기 쉽다는 장점과 크로스 플랫폼이라는 장점을 갖고 있어 웹 크롤러 개발에서 중요한 선택이 되었습니다.
위 내용은 Python 기반의 웹 크롤러 기술에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!