Python 크롤러 보조 도구 PyQuery 모듈의 설치 및 사용 가이드 소개-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python 크롤러 보조 도구 PyQuery 모듈의 설치 및 사용 가이드 소개

高洛峰

Mar 04, 2017 pm 04:04 PM

이 글에서는 주로 Python 크롤러 보조 도구인 PyQuery 모듈의 설치 및 사용 가이드를 소개합니다. PyQuery는 HTML 콘텐츠를 쉽게 구문 분석할 수 있어 많은 크롤러 프로그램 개발자들이 참고할 수 있습니다.

Windows에서 설치:
다운로드 주소: https://pypi.python.org/pypi/pyquery/#downloads

다운로드 게시물 -설치:

C:\Python27>easy_install E:\python\pyquery-1.2.4.zip

온라인으로 직접 설치할 수도 있습니다:

C:\Python27>easy_install pyquery

pyquery는 jquery와 유사한 Python 라이브러리입니다. jquery와 같은 구문을 사용하여 웹 페이지의 데이터를 추출할 수 있습니다. 매우 훌륭한 타사 라이브러리입니다. pyquery의 용도를 살펴보겠습니다.

html 문자열에서 정보 추출

#!/usr/bin/python
# -*- coding: utf-8 -*-
 
from pyquery import PyQuery as pq
html = &#39;&#39;&#39;
<html>
<head>
 <title>this is title</title>
</head>
<body>
 <p id="hi">Hello, World</p>
 <p id="hi2">Nihao</p>
 <div class="class1">
  <img  src="/static/imghwm/default1.png"  data-src="1.jpg"  class="lazy"   / alt="Python 크롤러 보조 도구 PyQuery 모듈의 설치 및 사용 가이드 소개" >
 </div>
 <ul>
  <li>list1</li>
  <li>list2</li>
 </ul>
</body>
</html>
&#39;&#39;&#39;
d=pq(html)
 
print d(&#39;title&#39;) # 相当于css选择器，根据html标签获取元素
print d(&#39;title&#39;).text() # text()方法获取当前选中的文本块
 
print d(&#39;#hi&#39;).text() # 相当于id选择器，直接根据id名获取元素
print d(&#39;p&#39;).filter(&#39;#hi2&#39;).text() # 可以根据id或class得到指定元素
print d(&#39;.class1&#39;) # 相当于class选择器
print d(&#39;.class1&#39;).html() # html()方法获取当前选中的html块
print d(&#39;.class1&#39;).find(&#39;img&#39;).attr(&#39;src&#39;) # 查找嵌套元素，并选中属性
print d(&#39;ul&#39;).find(&#39;li&#39;).eq(0).text() # 根据索引号获取多个相同html元素中的某一个
print d(&#39;ul&#39;).children() # 获取所有子元素
print d(&#39;ul&#39;).children().eq(0) #根据索引获取子元素
print d(&#39;img&#39;).parents() # 获取父元素
print d(&#39;#hi&#39;).next() # 获取下一个元素
print d(&#39;#hi&#39;).nextAll() #获取后面全部元素块
print d(&#39;p&#39;).not_(&#39;#hi2&#39;) # 返回不匹配选择器的元素
# 遍历所有匹配的元素
for i in d.items(&#39;li&#39;):
 print i.text()
print [i.text() for i in d.items(&#39;li&#39;)] # 遍历用于列表推倒
print d.make_links_absolute(base_url=&#39;http://www.baidu.com&#39;) # 把html文档中的相对路径变为绝对路径

위의 코드 스니펫은 다음을 제공합니다. pyquery의 운영 방법을 사용했습니다. 우리는 먼저 HTML 코드 조각을 정의한 다음 주로 특정 요소와 텍스트를 얻기 위해 일련의 pyquery 메서드를 사용하여 html 코드에서 작업했습니다. 물론 pyquery는 요소를 얻을 수 있을 뿐만 아니라 요소 속성을 설정하고 요소를 추가하는 등의 기능도 수행할 수 있습니다. 가장 일반적으로 사용되는 방법은 위 코드에서 사용하는 방법이므로 여기서는 다른 방법을 소개하지 않겠습니다.

url 또는 로컬 html 파일에서 정보 추출

물론 pyquery는 위와 같이 html 문자열을 구문 분석할 수 있을 뿐만 아니라 다음과 같이 분석할 수도 있습니다.

d = pq(url=&#39;http://www.baidu.com/&#39;)

URL을 직접 불러올 수 있으며, 위의 조작방법과 별 차이가 없습니다. 이 방법은 기본적으로 urllib 모듈을 사용하여 http 요청을 생성하지만 시스템에 요청이 설치된 경우 요청을 사용하여 http 요청을 생성합니다. 즉,

pq(&#39;http://www.baidu.com/&#39;, headers={&#39;user-agent&#39;: &#39;pyquery&#39;})

또는 해당 지역에 해당 HTML 파일이 이미 있는 경우 다음과 같이 할 수도 있습니다.

d = pq(filename=path_to_html_file)

위 작성 방법은 로컬 HTML 파일을 직접 지정하며 작업 방법은 여전히 위와 동일합니다. 같은.

보시다시피 pyquery는 jquery와 마찬가지로 어떤 요소든 선택할 수 있는 완전한 편의성을 제공합니다.

pyquery를 사용하여 상위 250개의 Douban 영화를 가져옵니다

pyquery의 구문을 읽은 후 상위 250개의 Douban 영화를 가져오는 예제를 살펴보겠습니다.

Douban의 안티 크롤러는 매우 강력하기 때문에 몇 번 실행한 후에도 잡을 수 없었습니다. 먼저 요청을 사용하여 페이지를 다운로드하고 pyquery를 사용하여 페이지를 직접 분석하여 정보를 추출해야 했습니다.

from pyquery import PyQuery as pq
import requests
 
head_req = {
 &#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36&#39;,
 &#39;Referer&#39;:&#39;https://movie.douban.com/top250?start=0&#39;,
 
}
r=requests.get("https://movie.douban.com/top250?start=0",headers=head_req)
with open("1.html","wb") as html:
 html.write(r.content)
 
d=pq(filename="1.html")
 
# print d(&#39;ol&#39;).find(&#39;li&#39;).html()
for data in d(&#39;ol&#39;).items(&#39;li&#39;):
 print data.find(&#39;.hd&#39;).find(&#39;.title&#39;).eq(0).text()
 print data.find(&#39;.star&#39;).find(&#39;.rating_num&#39;).text()
 print data.find(&#39;.quote&#39;).find(&#39;.inq&#39;).text()
 print

실행하여 결과를 확인하세요.

肖申克的救赎
9.6
希望让人自由。

这个杀手不太冷
9.4
怪蜀黍和小萝莉不得不说的故事。

阿甘正传
9.4
一部美国近现代史。

霸王别姬
9.4
风华绝代。

美丽人生
9.5
最美的谎言。

千与千寻
9.2
最好的宫崎骏，最好的久石让。

辛德勒的名单
9.4
拯救一个人，就是拯救整个世界。

海上钢琴师
9.2
每个人都要走一条自己坚定了的路，就算是粉身碎骨。

机器人总动员
9.3
小瓦力，大人生。

盗梦空间
9.2
诺兰给了我们一场无法盗取的梦。

泰坦尼克号
9.1
失去的才是永恒的。

三傻大闹宝莱坞
9.1
英俊版憨豆，高情商版谢耳朵。

放牛班的春天
9.2
天籁一般的童声，是最接近上帝的存在。

忠犬八公的故事
9.2
永远都不能忘记你所爱的人。

龙猫
9.1
人人心中都有个龙猫，童年就永远不会消失。

大话西游之大圣娶亲
9.1
一生所爱。

教父
9.2
千万不要记恨你的对手，这样会让你失去理智。

乱世佳人
9.2
Tomorrow is another day.

天堂电影院
9.1
那些吻戏，那些青春，都在影院的黑暗里被泪水冲刷得无比清晰。

当幸福来敲门
8.9
平民励志片。

搏击俱乐部
9.0
邪恶与平庸蛰伏于同一个母体，在特定的时间互相对峙。

楚门的世界
9.0
如果再也不能见到你，祝你早安，午安，晚安。

触不可及
9.1
满满温情的高雅喜剧。

指环王3：王者无敌
9.1
史诗的终章。

罗马假日
8.9
爱情哪怕只有一天。

물론 첫 페이지에 있는 항목은 25개뿐입니다. 우리는 이미 상위 250개 Douban 영화의 URL을 알고 있습니다.

https://movie.douban.com/top250?start=0

시작 매개변수는 0부터 시작하여 각각 25씩 증가합니다.

https://movie.douban.com/top250?start=225

까지 루프를 작성하여 모두 캡처할 수 있습니다.

Python 크롤러 보조 도구 PyQuery 모듈에 대한 자세한 설치 및 사용 가이드를 보려면 PHP 중국어 웹사이트의 관련 기사를 주목하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python vs. C : 응용 및 사용 사례가 비교되었습니다Apr 12, 2025 am 12:01 AM

Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

2 시간의 파이썬 계획 : 현실적인 접근Apr 11, 2025 am 12:04 AM

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

파이썬 : 기본 응용 프로그램 탐색Apr 10, 2025 am 09:41 AM

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

2 시간 안에 얼마나 많은 파이썬을 배울 수 있습니까?Apr 09, 2025 pm 04:33 PM

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법?Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까?Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

Python 3.6에 피클 파일을로드 할 때 '__builtin__'모듈을 찾을 수없는 경우 어떻게해야합니까?Apr 02, 2025 am 07:12 AM

Python 3.6에 피클 파일로드 3.6 환경 보고서 오류 : modulenotfounderror : nomodulename ...

경치 좋은 스팟 코멘트 분석에서 Jieba Word 세분화의 정확성을 향상시키는 방법은 무엇입니까?Apr 02, 2025 am 07:09 AM

경치 좋은 스팟 댓글 분석에서 Jieba Word 세분화 문제를 해결하는 방법은 무엇입니까? 경치가 좋은 스팟 댓글 및 분석을 수행 할 때 종종 Jieba Word 세분화 도구를 사용하여 텍스트를 처리합니다 ...

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는