python3은 키워드를 기반으로 Baidu Encyclopedia의 콘텐츠를 크롤링합니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

python3은 키워드를 기반으로 Baidu Encyclopedia의 콘텐츠를 크롤링합니다.

高洛峰

Feb 25, 2017 am 10:52 AM

前言

关于python版本，我一开始看很多资料说python2比较好，因为很多库还不支持3，但是使用到现在为止觉得还是pythin3比较好用，因为编码什么的问题，觉得2还是没有3方便。而且在网上找到的2中的一些资料稍微改一下也还是可以用。

好了，开始说爬百度百科的事。

这里设定的需求是爬取北京地区n个景点的全部信息，n个景点的名称是在文件中给出的。没有用到api，只是单纯的爬网页信息。

1、根据关键字获取url

由于只需要爬取信息，而且不涉及交互，可以使用简单的方法而不需要模拟浏览器。

可以直接

<strong>http://www.php.cn/"guanjianci"</strong>

<strong>for </strong>l <strong>in </strong>view_names:
 <strong>&#39;&#39;&#39;http://baike.baidu.com/search/word?word=&#39;&#39;&#39; </strong><em># 得到url的方法
</em><em> </em>name=urllib.parse.quote(l)
 name.encode(<strong>&#39;utf-8&#39;</strong>)
 url=<strong>&#39;http://baike.baidu.com/search/word?word=&#39;</strong>+name

这里要注意关键词是中午所以要注意编码问题，由于url中不能出现空格，所以需要用quote函数处理一下。

关于quote():

在 Python2.x 中的用法是:urllib.quote(text) 。Python3.x 中是urllib.parse.quote(text) 。按照标准,URL只允许一部分ASCII 字符(数字字母和部分符号),其他的字符（如汉字)是不符合URL标准的。所以URL中使用其他字符就需要进行URL编码。URL中传参数的部分(query String),格式是：name1=value1&name2=value2&name3=value3。假如你的name或者value值中的『&』或者『=』等符号，就当然会有问题。所以URL中的参数字符串也需要把『&=』等符号进行编码。URL编码的方式是把需要编码的字符转化为%xx的形式。通常URL编码是基于UTF-8的（当然这和浏览器平台有关）

例子：

比如『我，unicode 为 0x6211,UTF-8编码为0xE60x880x91，URL编码就是 %E6%88%91。

Python的urllib库中提供了quote和quote_plus两种方法。这两种方法的编码范围不同。不过不用深究，这里用quote就够了。

2、下载url

用urllib库轻松实现，见下面的代码中def download(self,url)

3、利用Beautifulsoup获取html

4、数据分析

百科中的内容是并列的段，所以在爬的时候不能自然的按段逻辑存储（因为全都是并列的）。所以必须用正则的方法。

基本的想法就是把整个html文件看做是str,然后用正则的方法截取想要的内容，在重新把这段内容转换成beautifulsoup对象，然后在进一步处理。

可能要花些时间看一下正则。

代码中还有很多细节，忘了再查吧只能，下次绝对应该边做编写文档，或者做完马上写。。。

贴代码！

# coding:utf-8
&#39;&#39;&#39;
 function：爬取百度百科所有北京景点，
 author:yi
&#39;&#39;&#39;
import urllib.request
from urllib.request import urlopen
from urllib.error import HTTPError
import urllib.parse
from bs4 import BeautifulSoup
import re
import codecs
import json
 
class BaikeCraw(object):
 def __init__(self):
  self.urls =set()
  self.view_datas= {}
 
 def craw(self,filename):
  urls = self.getUrls(filename)
  if urls == None:
   print("not found")
  else:
   for urll in urls:
    print(urll)
    try:
     html_count=self.download(urll)
     self.passer(urll, html_count)
    except:
     print("view do not exist")
    &#39;&#39;&#39;file=self.view_datas["view_name"]
    self.craw_pic(urll,file,html_count)
     print(file)&#39;&#39;&#39;
 
 
 def getUrls (self, filename):
  new_urls = set()
  file_object = codecs.open(filename, encoding=&#39;utf-16&#39;, )
  try:
   all_text = file_object.read()
  except:
   print("文件打开异常！")
   file_object.close()
  file_object.close()
  view_names=all_text.split(" ")
  for l in view_names:
   if &#39;?&#39; in l:
    view_names.remove(l)
  for l in view_names:
   &#39;&#39;&#39;http://baike.baidu.com/search/word?word=&#39;&#39;&#39; # 得到url的方法
   name=urllib.parse.quote(l)
   name.encode(&#39;utf-8&#39;)
   url=&#39;http://baike.baidu.com/search/word?word=&#39;+name
   new_urls.add(url)
  print(new_urls)
  return new_urls
 
 def manger(self):
  pass
 
 def passer(self,urll,html_count):
  soup = BeautifulSoup(html_count, &#39;html.parser&#39;, from_encoding=&#39;utf_8&#39;)
  self._get_new_data(urll, soup)
  return
 
 def download(self,url):
  if url is None:
   return None
  response = urllib.request.urlopen(url)
  if response.getcode() != 200:
   return None
  return response.read()
 
 def _get_new_data(self, url, soup): ##得到数据
  if soup.find(&#39;p&#39;,class_="main-content").find(&#39;h1&#39;) is not None:
   self.view_datas["view_name"]=soup.find(&#39;p&#39;,class_="main-content").find(&#39;h1&#39;).get_text()#景点名
   print(self.view_datas["view_name"])
  else:
   self.view_datas["view_name"] = soup.find("p", class_="feature_poster").find("h1").get_text()
  self.view_datas["view_message"] = soup.find(&#39;p&#39;, class_="lemma-summary").get_text()#简介
  self.view_datas["basic_message"]=soup.find(&#39;p&#39;, class_="basic-info cmn-clearfix").get_text() #基本信息
  self.view_datas["basic_message"]=self.view_datas["basic_message"].split("\n")
  get=[]
  for line in self.view_datas["basic_message"]:
   if line != "":
   get.append(line)
  self.view_datas["basic_message"]=get
  i=1
  get2=[]
  tmp="%%"
  for line in self.view_datas["basic_message"]:
 
   if i % 2 == 1:
    tmp=line
   else:
    a=tmp+":"+line
    get2.append(a)
   i=i+1
  self.view_datas["basic_message"] = get2
  self.view_datas["catalog"] = soup.find(&#39;p&#39;, class_="lemma-catalog").get_text().split("\n")#目录整体
  get = []
  for line in self.view_datas["catalog"]:
   if line != "":
    get.append(line)
  self.view_datas["catalog"] = get
  #########################百科内容
  view_name=self.view_datas["view_name"]
  html = urllib.request.urlopen(url)
  soup2 = BeautifulSoup(html.read(), &#39;html.parser&#39;).decode(&#39;utf-8&#39;)
  p = re.compile(r&#39;&#39;, re.DOTALL) # 尾
  r = p.search(content_data_node)
  content_data = content_data_node[0:r.span(0)[0]]
  lists = content_data.split(&#39;&#39;)
  i = 1
  for list in lists:#每一大块
   final_soup = BeautifulSoup(list, "html.parser")
   name_list = None
   try:
    part_name = final_soup.find(&#39;h2&#39;, class_="title-text").get_text().replace(view_name, &#39;&#39;).strip()
    part_data = final_soup.get_text().replace(view_name, &#39;&#39;).replace(part_name, &#39;&#39;).replace(&#39;编辑&#39;, &#39;&#39;) # 历史沿革
    name_list = final_soup.findAll(&#39;h3&#39;, class_="title-text")
    all_name_list = {}
    na="part_name"+str(i)
    all_name_list[na] = part_name
    final_name_list = []###########
    for nlist in name_list:
     nlist = nlist.get_text().replace(view_name, &#39;&#39;).strip()
     final_name_list.append(nlist)
    fin="final_name_list"+str(i)
    all_name_list[fin] = final_name_list
    print(all_name_list)
    i=i+1
    #正文
    try:
     p = re.compile(r&#39;&#39;, re.DOTALL)
     final_soup = final_soup.decode(&#39;utf-8&#39;)
     r = p.search(final_soup)
     final_part_data = final_soup[r.span(0)[0]:]
     part_lists = final_part_data.split(&#39;&#39;)
     for part_list in part_lists:
      final_part_soup = BeautifulSoup(part_list, "html.parser")
      content_lists = final_part_soup.findAll("p", class_="para")
      for content_list in content_lists: # 每个最小段
       try:
        pic_word = content_list.find("p",
                class_="lemma-picture text-pic layout-right").get_text() # 去掉文字中的图片描述
        try:
         pic_word2 = content_list.find("p", class_="description").get_text() # 去掉文字中的图片描述
         content_list = content_list.get_text().replace(pic_word, &#39;&#39;).replace(pic_word2, &#39;&#39;)
        except:
         content_list = content_list.get_text().replace(pic_word, &#39;&#39;)
 
       except:
        try:
         pic_word2 = content_list.find("p", class_="description").get_text() # 去掉文字中的图片描述
         content_list = content_list.get_text().replace(pic_word2, &#39;&#39;)
        except:
         content_list = content_list.get_text()
       r_part = re.compile(r&#39;\[\d.\]|\[\d\]&#39;)
       part_result, number = re.subn(r_part, "", content_list)
       part_result = "".join(part_result.split())
       #print(part_result)
    except:
     final_part_soup = BeautifulSoup(list, "html.parser")
     content_lists = final_part_soup.findAll("p", class_="para")
     for content_list in content_lists:
      try:
       pic_word = content_list.find("p", class_="lemma-picture text-pic layout-right").get_text() # 去掉文字中的图片描述
       try:
        pic_word2 = content_list.find("p", class_="description").get_text() # 去掉文字中的图片描述
        content_list = content_list.get_text().replace(pic_word, &#39;&#39;).replace(pic_word2, &#39;&#39;)
       except:
        content_list = content_list.get_text().replace(pic_word, &#39;&#39;)
 
      except:
       try:
        pic_word2 = content_list.find("p", class_="description").get_text() # 去掉文字中的图片描述
        content_list = content_list.get_text().replace(pic_word2, &#39;&#39;)
       except:
        content_list = content_list.get_text()
      r_part = re.compile(r&#39;\[\d.\]|\[\d\]&#39;)
      part_result, number = re.subn(r_part, "", content_list)
      part_result = "".join(part_result.split())
      #print(part_result)
 
   except:
    print("error")
  return
 
 def output(self,filename):
  json_data = json.dumps(self.view_datas, ensure_ascii=False, indent=2)
  fout = codecs.open(filename+&#39;.json&#39;, &#39;a&#39;, encoding=&#39;utf-16&#39;, )
  fout.write( json_data)
  # print(json_data)
  return
 
 def craw_pic(self,url,filename,html_count):
  soup = BeautifulSoup(html_count, &#39;html.parser&#39;, from_encoding=&#39;utf_8&#39;)
  node_pic=soup.find(&#39;p&#39;,class_=&#39;banner&#39;).find("a", href=re.compile("/photo/poi/....\."))
  if node_pic is None:
   return None
  else:
   part_url_pic=node_pic[&#39;href&#39;]
   full_url_pic=urllib.parse.urljoin(url,part_url_pic)
   #print(full_url_pic)
  try:
   html_pic = urlopen(full_url_pic)
  except HTTPError as e:
   return None
  soup_pic=BeautifulSoup(html_pic.read())
  pic_node=soup_pic.find(&#39;p&#39;,class_="album-list")
  print(pic_node)
  return
 
if __name__ =="__main__" :
 spider=BaikeCraw()
 filename="D:\PyCharm\\view_spider\\view_points_part.txt"
 spider.craw(filename)

总结

用python3根据关键词爬取百度百科的内容到这就基本结束了，希望这篇文章能对大家学习python有所帮助。

更多python3根据关键词爬取百度百科的内容相关文章请关注PHP中文网！

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬에서 공장 모드를 구현하는 방법은 무엇입니까?May 16, 2025 pm 12:39 PM

파이썬에서 공장 패턴을 구현하면 통합 인터페이스를 만들어 다양한 유형의 객체를 생성 할 수 있습니다. 특정 단계는 다음과 같습니다. 1. 차량, 자동차, 비행기 및 기차와 같은 기본 클래스 및 여러 상속 클래스를 정의하십시오. 2. 공장 클래스 VehicleFactory를 생성하고 Create_vehicle 메소드를 사용하여 유형 매개 변수에 따라 해당 객체 인스턴스를 반환합니다. 3. my_car = factory.create_vehicle ( "car", "tesla")과 같은 공장 클래스를 통해 객체를 인스턴스화하십시오. 이 패턴은 코드의 확장 성과 유지 가능성을 향상 시키지만 복잡성에주의를 기울여야합니다.

Python Original String Prefix에서 R은 무엇을 의미합니까?May 16, 2025 pm 12:36 PM

Python에서 R 또는 R 접두사는 원래 문자열을 정의하고 모든 탈출 된 문자를 무시하고 문자열을 문자 그대로 해석하게하는 데 사용됩니다. 1) 탈출 캐릭터의 오해를 피하기 위해 정규 표현 및 파일 경로를 처리하는 데 적용됩니다. 2) 라인 브레이크와 같은 탈출 된 캐릭터를 보존 해야하는 경우에는 적용되지 않습니다. 예상치 못한 출력을 방지하기 위해 사용할 때는 신중한 점검이 필요합니다.

파이썬에서 __del__ 방법을 사용하여 자원을 정리하는 방법은 무엇입니까?May 16, 2025 pm 12:33 PM

파이썬에서 __del__ 방법은 자원을 정리하는 데 사용되는 물체의 소멸자입니다. 1) 불확실한 실행 시간 : 쓰레기 수집 메커니즘에 의존합니다. 2) 순환 참조 : 약점을 사용하여 신속하게 호출을 할 수없고 처리 할 수 없을 수 있습니다. 3) 예외 처리 : __del__에 던져진 예외는 Try-excrect 블록을 사용하여 무시하고 캡처 할 수 있습니다. 4) 자원 관리를위한 모범 사례 : 자원을 관리하기 위해 진술 및 상황 관리자와 함께 사용하는 것이 좋습니다.

Python 목록에서 POP () 함수의 사용 POP 요소 제거 방법에 대한 자세한 설명May 16, 2025 pm 12:30 PM

POP () 함수는 파이썬에서 사용하여 목록에서 요소를 제거하고 지정된 위치를 반환합니다. 1) 인덱스가 지정되지 않은 경우 POP ()는 기본적으로 목록의 마지막 요소를 제거하고 반환합니다. 2) 인덱스를 지정할 때 POP ()는 인덱스 위치에서 요소를 제거하고 반환합니다. 3) 색인 오류, 성능 문제, 대체 방법 및 사용 시점에주의를 기울이십시오.

이미지 처리에 Python을 사용하는 방법은 무엇입니까?May 16, 2025 pm 12:27 PM

Python은 주로 이미지 처리를 위해 두 개의 주요 라이브러리 베개 및 OpenCV를 사용합니다. 베개는 워터 마크 추가와 같은 간단한 이미지 처리에 적합하며 코드는 간단하고 사용하기 쉽습니다. OpenCV는 복잡한 이미지 처리 및 Edge Detection과 같은 컴퓨터 비전에 적합하지만 성능이 뛰어나지 만 메모리 관리에 대한 관심이 필요합니다.

Python에서 주요 구성 요소 분석을 구현하는 방법은 무엇입니까?May 16, 2025 pm 12:24 PM

Python에서 PCA 구현은 수동으로 코드를 작성하거나 Scikit-Learn 라이브러리를 사용하여 수행 할 수 있습니다. 수동으로 PCA를 구현하려면 다음 단계가 포함됩니다. 1) 데이터 중앙 집중화, 2) 공분산 매트릭스 계산, 3) 고유 값 및 고유 벡터 계산, 4) 주요 구성 요소를 정렬하고 선택하고 5) 데이터를 새 공간에 투사하십시오. 수동 구현은 알고리즘을 깊이 이해하는 데 도움이되지만 Scikit-Learn은보다 편리한 기능을 제공합니다.

파이썬에서 로그를 계산하는 방법은 무엇입니까?May 16, 2025 pm 12:21 PM

파이썬에서 로그를 계산하는 것은 매우 간단하지만 흥미로운 것입니다. 가장 기본적인 질문부터 시작하겠습니다 : 파이썬에서 로그를 계산하는 방법은 무엇입니까? Python에서 로그를 계산하는 기본 방법 Python의 수학 모듈은 로그를 계산하기위한 기능을 제공합니다. 간단한 예를 들어 보자 : importmath# 자연 로그를 계산한다 (기본은 e) x = 10natural_log = math.log (x) print (f "자연 로그 ({x}) = {natural_log}")# base 10 log_base_10 = math.log10 (x) pri가있는 로그를 계산합니다.

파이썬에서 선형 회귀를 구현하는 방법은 무엇입니까?May 16, 2025 pm 12:18 PM

파이썬에서 선형 회귀를 구현하기 위해 여러 관점에서 시작할 수 있습니다. 이것은 단순한 기능 호출 일뿐 만 아니라 통계, 수학적 최적화 및 기계 학습의 포괄적 인 적용을 포함합니다. 이 과정에 깊이있게 다이빙합시다. 파이썬에서 선형 회귀를 구현하는 가장 일반적인 방법은 쉽고 효율적인 도구를 제공하는 Scikit-Learn 라이브러리를 사용하는 것입니다. 그러나 선형 회귀의 원리와 구현 세부 사항에 대해 더 깊이 이해하려면 선형 회귀 알고리즘을 처음부터 작성할 수도 있습니다. Scikit-Learn의 선형 회귀 구현은 Scikit-Learn을 사용하여 선형 회귀의 구현을 캡슐화하여 쉽게 모델링하고 예측할 수 있습니다. 다음은 SC를 사용합니다

See all articles