>  기사  >  백엔드 개발  >  Python 기반의 웹 크롤러 기술에 대한 자세한 설명

Python 기반의 웹 크롤러 기술에 대한 자세한 설명

王林
王林원래의
2023-06-17 10:28:44911검색

인터넷과 빅데이터 시대의 도래로 점점 더 많은 데이터가 동적으로 생성되어 웹페이지에 표시되고 있으며, 이는 데이터 수집 및 처리에 새로운 과제를 안겨줍니다. 이때 웹 크롤러 기술이 탄생했다. 웹 크롤러 기술은 프로그램을 작성해 인터넷 상에서 자동으로 정보를 얻는 기술을 말한다. 강력한 프로그래밍 언어인 Python은 배우기 쉽고, 효율적이고, 사용하기 쉽다는 장점이 있으며, 웹 크롤러 개발에서 중요한 선택이 되었습니다.

이 글에서는 요청 모듈, 파싱 모듈, 저장 모듈 등 Python에서 일반적으로 사용되는 웹 크롤러 기술을 체계적으로 소개합니다.

1. 요청 모듈

요청 모듈은 브라우저를 시뮬레이션하여 요청을 보내고 필요한 페이지 콘텐츠를 얻을 수 있습니다. 일반적으로 사용되는 요청 모듈에는 urllib, Requests 및 Selenium이 포함됩니다.

  1. urllib

urllib는 Python에 포함된 HTTP 요청 모듈로, URL을 기반으로 네트워크에서 웹페이지 데이터를 얻을 수 있으며 URL 인코딩, 요청 헤더 수정, 게시, 쿠키 등의 기능을 지원합니다. 일반적으로 사용되는 함수로는 urllib.request.urlopen(), urllib.request.urlretrieve(), urllib.request.build_opener() 등이 있습니다.

urllib.request.urlopen() 함수를 통해 웹사이트의 소스 코드를 얻을 수 있습니다.

import urllib.request

response = urllib.request.urlopen('http://www.example.com/')
source_code = response.read().decode('utf-8')
print(source_code)
  1. Requests

Requests는 urllib보다 사용하기 쉽고 간단하며 쿠키를 지원하는 Python 타사 라이브러리입니다. , POST, 프록시 및 기타 기능. 일반적으로 사용되는 함수에는 요청.get(), 요청.포스트(), 요청.요청() 등이 있습니다.

requests.get() 함수를 통해 응답 내용을 얻을 수 있습니다.

import requests

response = requests.get('http://www.example.com/')
source_code = response.text
print(source_code)
  1. Selenium

Selenium은 웹 크롤러에서 브라우저를 시작하여 인간 작업을 시뮬레이션할 수 있습니다. JS에서 동적으로 생성된 페이지 데이터와 같은 Get 기능을 달성했습니다. 일반적으로 사용되는 함수에는 selenium.webdriver.Chrome(), selenium.webdriver.Firefox(), selenium.webdriver.PhantomJS() 등이 있습니다.

Selenium을 통해 웹페이지 소스 코드 가져오기:

from selenium import webdriver

browser = webdriver.Chrome()  # 打开Chrome浏览器
browser.get('http://www.example.com/')
source_code = browser.page_source  # 获取网页源代码
print(source_code)

2. 구문 분석 모듈

웹 페이지 소스 코드를 가져온 후 다음 단계는 파일을 구문 분석하는 것입니다. Python에서 일반적으로 사용되는 구문 분석 모듈에는 정규식, BeautifulSoup 및 PyQuery가 포함됩니다.

  1. 정규식

정규식은 패턴에 따라 문자열을 일치시키고 필요한 데이터를 빠르게 추출할 수 있는 마술적이고 강력한 도구입니다. Python의 re 모듈을 사용하여 정규식을 호출할 수 있습니다.

예를 들어 웹 페이지의 모든 링크를 추출합니다.

import re

source_code = """
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <a href="http://www.example.com/">example</a>
    <a href="http://www.google.com/">google</a>
</body>
</html>
"""

pattern = re.compile('<a href="(.*?)">(.*?)</a>')  # 匹配所有链接
results = re.findall(pattern, source_code)

for result in results:
    print(result[0], result[1])
  1. BeautifulSoup

Beautiful Soup은 HTML 파일이나 XML 파일을 트리 구조로 구문 분석하여 HTML/XML 파일 데이터를 쉽게 얻을 수 있는 Python 라이브러리입니다. . 다양한 파서를 지원하며, 일반적으로 사용되는 파서는 Python의 내장 html.parser, lxml 및 html5lib입니다.

예를 들어 웹페이지의 모든 링크를 구문 분석합니다.

from bs4 import BeautifulSoup

source_code = """
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <a href="http://www.example.com/">example</a>
    <a href="http://www.google.com/">google</a>
</body>
</html>
"""

soup = BeautifulSoup(source_code, 'html.parser')
links = soup.find_all('a')

for link in links:
    print(link.get('href'), link.string)
  1. PyQuery

PyQuery는 HTML 문서를 jQuery와 유사한 구조로 변환하는 jQuery와 유사한 Python 라이브러리이며 다음을 통해 웹페이지의 콘텐츠를 직접 얻을 수 있습니다. CSS 선택기 요소. lxml 라이브러리에 따라 다릅니다.

예를 들어 웹 페이지의 모든 링크를 구문 분석합니다.

from pyquery import PyQuery as pq

source_code = """
<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <a href="http://www.example.com/">example</a>
    <a href="http://www.google.com/">google</a>
</body>
</html>
"""

doc = pq(source_code)
links = doc('a')

for link in links:
    print(link.attrib['href'], link.text_content())

3. 저장 모듈

필요한 데이터를 얻은 후 다음 단계는 데이터를 로컬 또는 데이터베이스에 저장하는 것입니다. Python에서 일반적으로 사용되는 저장 모듈에는 파일 모듈, MySQLdb, pymongo 등이 포함됩니다.

  1. 파일 모듈

파일 모듈은 데이터를 로컬에 저장할 수 있습니다. 일반적으로 사용되는 파일 모듈에는 CSV, JSON, Excel 등이 있습니다. 그 중 CSV 모듈은 데이터를 CSV 파일에 쓸 수 있는 가장 일반적으로 사용되는 파일 모듈 중 하나입니다.

예를 들어, CSV 파일에 데이터를 씁니다.

import csv

filename = 'example.csv'
data = [['name', 'age', 'gender'],
        ['bob', 25, 'male'],
        ['alice', 22, 'female']]

with open(filename, 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    for row in data:
        writer.writerow(row)
  1. MySQLdb

MySQLdb는 MySQL 데이터베이스에 연결하기 위한 Python용 라이브러리이며 트랜잭션 및 커서와 같은 여러 기능을 지원합니다.

예를 들어 MySQL 데이터베이스에 데이터를 저장합니다.

import MySQLdb

conn = MySQLdb.connect(host='localhost', port=3306, user='root', 
                       passwd='password', db='example', charset='utf8')
cursor = conn.cursor()

data = [('bob', 25, 'male'), ('alice', 22, 'female')]

sql = "INSERT INTO users (name, age, gender) VALUES (%s, %s, %s)"

try:
    cursor.executemany(sql, data)
    conn.commit()
except:
    conn.rollback()

cursor.close()
conn.close()
  1. pymongo

pymongo는 MongoDB 데이터베이스에 연결하기 위한 Python용 라이브러리로 추가, 삭제, 수정 및 쿼리와 같은 다양한 작업을 지원합니다. .

예를 들어 MongoDB 데이터베이스에 데이터를 저장합니다:

import pymongo

client = pymongo.MongoClient('mongodb://localhost:27017/')
db = client['example']
collection = db['users']

data = [{'name': 'bob', 'age': 25, 'gender': 'male'}, 
        {'name': 'alice', 'age': 22, 'gender': 'female'}]

collection.insert_many(data)

IV. 요약

Python의 웹 크롤러 기술에는 요청 모듈, 구문 분석 모듈 및 저장 모듈이 포함되며, 그 중 요청 모듈은 웹 크롤러의 핵심입니다. 파싱 ​​모듈은 데이터를 얻는 중요한 채널이며, 저장 모듈은 데이터를 유지하는 유일한 방법입니다. Python은 웹 크롤러 개발에서 배우기 쉽고 효율적이며 사용하기 쉽다는 장점과 크로스 플랫폼이라는 장점을 갖고 있어 웹 크롤러 개발에서 중요한 선택이 되었습니다.

위 내용은 Python 기반의 웹 크롤러 기술에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.