>백엔드 개발 >파이썬 튜토리얼 >Python에서 크롤러 코드를 예시하는 방법

Python에서 크롤러 코드를 예시하는 방법

coldplay.xixi
coldplay.xixi원래의
2020-08-11 13:58:529687검색

파이썬 크롤러 코드 예제 사용 방법: 먼저 브라우저 정보를 얻고 urlencode를 사용하여 게시 데이터를 생성한 다음 pymysql을 설치하고 데이터를 MySQL에 저장합니다.

Python에서 크롤러 코드를 예시하는 방법

Python 크롤러 코드 예제에 대한 방법:

1, urllib 및 BeautifulfuSoup

브라우저 정보 가져오기

from urllib import request
req = request.urlopen("http://www.baidu.com")
print(req.read().decode("utf-8"))

실제 브라우저 시뮬레이션: 사용자 에이전트 헤더 전달

(목적은 다음이 아닙니다. let 서버는 이 브라우저 정보가 포함되어 있지 않으면 오류가 보고될 수 있습니다.)

req = request.Request(url) #此处url为某个网址
req.add_header(key,value)  #key即user-Agent,value即浏览器的版本信息
resp = request.urlopen(req)
print(resp.read().decode("utf-8"))

관련 학습 권장 사항: python 비디오 튜토리얼

POST

를 사용하여 urllib 라이브러리에서 구문 분석을 가져옵니다.

from urllib import parse

urlencode를 사용하여 게시물 데이터 생성

postData = parse.urlencode([
    (key1,val1),
    (key2,val2),
    (keyn,valn)
])

post 사용

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求
resp.status  #得到请求状态
resp.reason #得到服务器的类型

전체 코드 예제(Wikipedia 홈페이지 링크 크롤링을 예로 사용)

#-*- coding:utf-8 -*-
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen 
import re
import ssl
#获取维基百科词条信息
ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证
#请求URL,并把结果用utf-8编码
req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")
#使用beautifulsoup去解析
soup = bs(req,"html.parser")
# print(soup)
#获取所有href属性以“/wiki/Special”开头的a标签
urllist = soup.findAll("a",href=re.compile("^/wiki/Special"))
for url in urllist:
#去除以.jpg或.JPG结尾的链接
if not re.search("\.(jpg|JPG)$",url["href"]):
#get_test()输出标签下的所有内容,包括子标签的内容;
#string只输出一个内容,若该标签有子标签则输出“none
print(url.get_text()+"----->"+url["href"])
# print(url)

2. MySQL에 데이터 저장

pymysql 설치

pip를 통해 설치 :

$ pip install pymysql

또는 설치 파일을 통해:

$ python setup.py install

Using

#引入开发包
import pymysql.cursors
#获取数据库链接
connection = pymysql.connect(host="localhost",
user = 'root',
password = '123456',
db ='wikiurl',
charset = 'utf8mb4')
try:
#获取会话指针
with connection.cursor() as cursor
#创建sql语句
sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"
#执行SQL语句
cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))
#提交
connection.commit()
finally:
#关闭
connection.close()

3. 크롤러에 대한 주의 사항

Robots 프로토콜(로봇 프로토콜, 크롤러 프로토콜이라고도 함), 전체 이름은 "웹 크롤러 제외 프로토콜"입니다. 웹사이트는 로봇 프로토콜 가져오기를 통해 크롤링할 수 있는 페이지와 가져올 수 없는 페이지를 검색 엔진에 알려줍니다. 일반적으로 https://en.wikipedia.org/robots.txt

Disallow:不允许访问
allow:允许访问

와 같은 메인 페이지 아래 관련 권장 사항: 프로그래밍 비디오 코스

위 내용은 Python에서 크롤러 코드를 예시하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.