집 >백엔드 개발 >파이썬 튜토리얼 >Python을 사용하여 w3shcool을 크롤링하고 이를 로컬 코드 예제에 저장하는 방법을 가르치는 과정

Python을 사용하여 w3shcool을 크롤링하고 이를 로컬 코드 예제에 저장하는 방법을 가르치는 과정

Y2J원래의: 2017-04-27 11:42:032252검색

이 글에서는 w3shcool의 JQuery 강좌를 Python이 크롤링하고 로컬에 저장하는 방법 분석을 주로 소개합니다. 매우 좋은 참조 값을 가지고 있습니다. 아래 에디터와 함께 살펴보겠습니다

최근에 일자리를 구하느라 바빴습니다. 틈틈이 기술을 연습하고 코드를 작성하기 위해 크롤러 프로젝트도 찾았습니다. , 하지만 Shushan에는 도로 작업이 더 많이 필요합니다. 테스트 피트가 있다면 자동화, 기능, 인터페이스 모두 가능하도록 소개해 주실 수 있나요?

우선 우리는 우리의 요구 사항을 명확하게 정의했습니다. 많은 학생들이 할 일이 없을 때 몇 가지 기술을 보고 싶어하지만 예를 들어 JQuery의 구문을 보고 싶지 않습니다. 지금은 인터넷이 있고 휴대폰에는 전자책이 없습니다. 정말 불편하니 걱정하지 마세요. 우선 여러분의 요구 사항을 충족시키기 위해 왔습니다. JQuery를 사용하면 이 필요성을 알 수 있고 응답하는 웹사이트가 있으므로 계속해서 이 웹사이트를 분석해 보겠습니다. www.w3school.com.cn/jquery/jquery_syntax.asp 이것이 문법 URL입니다. http://www.w3school.com.cn/jquery/jquery_intro.asp 이것이 소개 URL입니다. 그럼 URL 분석을 많이 했습니다. , 우리 www.w3school.com.cn/jquery 는 동일하므로 인터페이스에서 이를 얻는 방법을 분석해 보겠습니다. 오른쪽에 해당 대상 표시줄이 있는 것을 볼 수 있으므로 분석해 보겠습니다

이 링크를 살펴보겠습니다. 우리는 이러한 링크를 http://www.w3school.com.cn과 연결할 수 있습니다. 그런 다음 새 URL

을 만들고

import urllib.request
from bs4 import BeautifulSoup 
import time
def head():
 headers={
 &#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0&#39;
 }
 return headers
def parse_url(url):
 hea=head()
 resposne=urllib.request.Request(url,headers=hea)
 html=urllib.request.urlopen(resposne).read().decode(&#39;gb2312&#39;)
 return html
def url_s():
 url=&#39;http://www.w3school.com.cn/jquery/index.asp&#39;
 html=parse_url(url)
 soup=BeautifulSoup(html)
 me=soup.find_all(id=&#39;course&#39;)
 m_url_text=[]
 m_url=[]
 for link in me:
  m_url_text.append(link.text)
  m=link.find_all(&#39;a&#39;)
  for i in m:
   m_url.append(i.get(&#39;href&#39;))
 for i in m_url_text:
  h=i.encode(&#39;utf-8&#39;).decode(&#39;utf-8&#39;)
  m_url_text=h.split(&#39;\n&#39;)
 return m_url,m_url_text

코드를 추가하면 url_s 함수를 사용하여 모든 링크를 가져올 수 있습니다.

[&#39;/jquery/index.asp&#39;, &#39;/jquery/jquery_intro.asp&#39;, &#39;/jquery/jquery_install.asp&#39;, &#39;/jquery/jquery_syntax.asp&#39;, &#39;/jquery/jquery_selectors.asp&#39;, &#39;/jquery/jquery_events.asp&#39;, &#39;/jquery/jquery_hide_show.asp&#39;, &#39;/jquery/jquery_fade.asp&#39;, &#39;/jquery/jquery_slide.asp&#39;, &#39;/jquery/jquery_animate.asp&#39;, &#39;/jquery/jquery_stop.asp&#39;, &#39;/jquery/jquery_callback.asp&#39;, &#39;/jquery/jquery_chaining.asp&#39;, &#39;/jquery/jquery_dom_get.asp&#39;, &#39;/jquery/jquery_dom_set.asp&#39;, &#39;/jquery/jquery_dom_add.asp&#39;, &#39;/jquery/jquery_dom_remove.asp&#39;, &#39;/jquery/jquery_css_classes.asp&#39;, &#39;/jquery/jquery_css.asp&#39;, &#39;/jquery/jquery_dimensions.asp&#39;, &#39;/jquery/jquery_traversing.asp&#39;, &#39;/jquery/jquery_traversing_ancestors.asp&#39;, &#39;/jquery/jquery_traversing_descendants.asp&#39;, &#39;/jquery/jquery_traversing_siblings.asp&#39;, &#39;/jquery/jquery_traversing_filtering.asp&#39;, &#39;/jquery/jquery_ajax_intro.asp&#39;, &#39;/jquery/jquery_ajax_load.asp&#39;, &#39;/jquery/jquery_ajax_get_post.asp&#39;, &#39;/jquery/jquery_noconflict.asp&#39;, &#39;/jquery/jquery_examples.asp&#39;, &#39;/jquery/jquery_quiz.asp&#39;, &#39;/jquery/jquery_reference.asp&#39;, &#39;/jquery/jquery_ref_selectors.asp&#39;, &#39;/jquery/jquery_ref_events.asp&#39;, &#39;/jquery/jquery_ref_effects.asp&#39;, &#39;/jquery/jquery_ref_manipulation.asp&#39;, &#39;/jquery/jquery_ref_attributes.asp&#39;, &#39;/jquery/jquery_ref_css.asp&#39;, &#39;/jquery/jquery_ref_ajax.asp&#39;, &#39;/jquery/jquery_ref_traversing.asp&#39;, &#39;/jquery/jquery_ref_data.asp&#39;, &#39;/jquery/jquery_ref_dom_element_methods.asp&#39;, &#39;/jquery/jquery_ref_core.asp&#39;, &#39;/jquery/jquery_ref_prop.asp&#39;], [&#39;jQuery 教程&#39;, &#39;&#39;, &#39;jQuery 教程&#39;, &#39;jQuery 简介&#39;, &#39;jQuery 安装&#39;, &#39;jQuery 语法&#39;, &#39;jQuery 选择器&#39;, &#39;jQuery 事件&#39;, &#39;&#39;, &#39;jQuery 效果&#39;, &#39;&#39;, &#39;jQuery 隐藏/显示&#39;, &#39;jQuery 淡入淡出&#39;, &#39;jQuery 滑动&#39;, &#39;jQuery 动画&#39;, &#39;jQuery stop()&#39;, &#39;jQuery Callback&#39;, &#39;jQuery Chaining&#39;, &#39;&#39;, &#39;jQuery HTML&#39;, &#39;&#39;, &#39;jQuery 获取&#39;, &#39;jQuery 设置&#39;, &#39;jQuery 添加&#39;, &#39;jQuery 删除&#39;, &#39;jQuery CSS 类&#39;, &#39;jQuery css()&#39;, &#39;jQuery 尺寸&#39;, &#39;&#39;, &#39;jQuery 遍历&#39;, &#39;&#39;, &#39;jQuery 遍历&#39;, &#39;jQuery 祖先&#39;, &#39;jQuery 后代&#39;, &#39;jQuery 同胞&#39;, &#39;jQuery 过滤&#39;, &#39;&#39;, &#39;jQuery AJAX&#39;, &#39;&#39;, &#39;jQuery AJAX 简介&#39;, &#39;jQuery 加载&#39;, &#39;jQuery Get/Post&#39;, &#39;&#39;, &#39;jQuery 杂项&#39;, &#39;&#39;, &#39;jQuery noConflict()&#39;, &#39;&#39;, &#39;jQuery 实例&#39;, &#39;&#39;, &#39;jQuery 实例&#39;, &#39;jQuery 测验&#39;, &#39;&#39;, &#39;jQuery 参考手册&#39;, &#39;&#39;, &#39;jQuery 参考手册&#39;, &#39;jQuery 选择器&#39;, &#39;jQuery 事件&#39;, &#39;jQuery 效果&#39;, &#39;jQuery 文档操作&#39;, &#39;jQuery 属性操作&#39;, &#39;jQuery CSS 操作&#39;, &#39;jQuery Ajax&#39;, &#39;jQuery 遍历&#39;, &#39;jQuery 数据&#39;, &#39;jQuery DOM 元素&#39;, &#39;jQuery 核心&#39;, &#39;jQuery 属性&#39;, &#39;&#39;, &#39;&#39;])

모든 링크의 이름과 해당 링크의 해당 문법 모듈입니다. 그런 다음 다음 단계는 str splicing

 [&#39;http://www.w3school.com.cn//jquery/index.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_intro.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_install.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_syntax.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_selectors.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_events.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_hide_show.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_fade.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_slide.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_animate.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_stop.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_callback.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_chaining.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_dom_get.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_dom_set.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_dom_add.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_dom_remove.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_css_classes.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_css.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_dimensions.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_traversing.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_traversing_ancestors.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_traversing_descendants.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_traversing_siblings.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_traversing_filtering.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ajax_intro.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ajax_load.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ajax_get_post.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_noconflict.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_examples.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_quiz.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_reference.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_selectors.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_events.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_effects.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_manipulation.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_attributes.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_css.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_ajax.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_traversing.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_data.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_dom_element_methods.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_core.asp&#39;, &#39;http://www.w3school.com.cn//jquery/jquery_ref_prop.asp&#39;]

를 사용하여 URL을 연결하는 것입니다. 그러면 이러한 URL이 모두 있으므로 기사 텍스트를 분석해 보겠습니다.

분석 결과 모든 텍스트가 id=maincontent에 있음을 알 수 있으며, 각 인터페이스에서 id=maincontent 태그를 직접 구문 분석하고 응답 텍스트 문서를 가져와 저장합니다.

따라서 모든 코드는 다음과 같습니다.

import urllib.request
from bs4 import BeautifulSoup 
import time
def head():
 headers={
 &#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0&#39;
 }
 return headers
def parse_url(url):
 hea=head()
 resposne=urllib.request.Request(url,headers=hea)
 html=urllib.request.urlopen(resposne).read().decode(&#39;gb2312&#39;)
 return html
def url_s():
 url=&#39;http://www.w3school.com.cn/jquery/index.asp&#39;
 html=parse_url(url)
 soup=BeautifulSoup(html)
 me=soup.find_all(id=&#39;course&#39;)
 m_url_text=[]
 m_url=[]
 for link in me:
  m_url_text.append(link.text)
  m=link.find_all(&#39;a&#39;)
  for i in m:
   m_url.append(i.get(&#39;href&#39;))
 for i in m_url_text:
  h=i.encode(&#39;utf-8&#39;).decode(&#39;utf-8&#39;)
  m_url_text=h.split(&#39;\n&#39;)
 return m_url,m_url_text
def xml():
 url,url_text=url_s()
 url_jque=[]
 for link in url:
  url_jque.append('http://www.w3school.com.cn/'+link)
 return url_jque
def xiazai():
 urls=xml()
 i=0
 for url in urls:
  html=parse_url(url)
  soup=BeautifulSoup(html)
  me=soup.find_all(id='maincontent')
  with open(r'%s.txt'%i,'wb') as f:
   for h in me:
    f.write(h.text.encode('utf-8'))
    print(i)
  i+=1
if __name__ == '__main__':
 xiazai()

import urllib.request
from bs4 import BeautifulSoup 
import time
def head():
 headers={
 &#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0&#39;
 }
 return headers
def parse_url(url):
 hea=head()
 resposne=urllib.request.Request(url,headers=hea)
 html=urllib.request.urlopen(resposne).read().decode(&#39;gb2312&#39;)
 return html
def url_s():
 url=&#39;http://www.w3school.com.cn/jquery/index.asp&#39;
 html=parse_url(url)
 soup=BeautifulSoup(html)
 me=soup.find_all(id=&#39;course&#39;)
 m_url_text=[]
 m_url=[]
 for link in me:
  m_url_text.append(link.text)
  m=link.find_all(&#39;a&#39;)
  for i in m:
   m_url.append(i.get(&#39;href&#39;))
 for i in m_url_text:
  h=i.encode(&#39;utf-8&#39;).decode(&#39;utf-8&#39;)
  m_url_text=h.split(&#39;\n&#39;)
 return m_url,m_url_text

def xml():
 url,url_text=url_s()
 url_jque=[]
 for link in url:
  url_jque.append('http://www.w3school.com.cn/'+link)
 return url_jque
def xiazai():
 urls=xml()
 i=0
 for url in urls:
  html=parse_url(url)
  soup=BeautifulSoup(html)
  me=soup.find_all(id='maincontent')
  with open(r'%s.txt'%i,'wb') as f:
   for h in me:
    f.write(h.text.encode('utf-8'))
    print(i)
  i+=1
if __name__ == '__main__':
 xiazai()

Results

이제 크롤링 작업이 완료되었으며 나머지는 사소한 것입니다. 수리와 소소한 개선이 있었지만, 주요 콘텐츠는 모두 완료했어야 했습니다.

사실 Python의 크롤러는 여전히 매우 간단합니다. 웹사이트의 요소를 분석하고 모든 요소의 공통 용어를 알아낼 수 있다면 문제를 매우 잘 분석하고 해결할 수 있습니다.

위 내용은 Python을 사용하여 w3shcool을 크롤링하고 이를 로컬 코드 예제에 저장하는 방법을 가르치는 과정의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이전 기사：Python에서 Naive Bayes 알고리즘을 사용하는 방법에 대한 자세한 소개다음 기사：Python에서 Naive Bayes 알고리즘을 사용하는 방법에 대한 자세한 소개