집 >백엔드 개발 >파이썬 튜토리얼 >Python 크롤러 멀티스레딩에 대한 자세한 설명 및 예제 코드

Python 크롤러 멀티스레딩에 대한 자세한 설명 및 예제 코드

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2016-12-05 13:27:201682검색

Python은 주로 스레드와 스레딩이라는 두 모듈을 통해 멀티스레딩을 지원합니다. 스레드 모듈은 상대적으로 낮은 수준의 모듈이며, 스레드 모듈은 스레드를 래핑하여 사용하기 더 편리하게 만듭니다.

Python의 멀티스레딩은 GIL에 의해 제한되고 진정한 멀티스레딩은 아니지만 크롤러와 같이 I/O 집약적인 계산의 효율성을 크게 향상시킬 수 있습니다.
멀티스레딩의 효율성을 검증하기 위해 아래의 예를 사용합니다. 코드는 페이지 획득만 포함하고 이를 구문 분석하지 않습니다.

# -*-coding:utf-8 -*-
import urllib2, time
import threading

class MyThread(threading.Thread):
 def __init__(self, func, args):
  threading.Thread.__init__(self)
  self.args = args
  self.func = func

 def run(self):
  apply(self.func, self.args)

def open_url(url):
 request = urllib2.Request(url)
 html = urllib2.urlopen(request).read()
 print len(html)
 return html

if __name__ == '__main__':
 # 构造url列表
 urlList = []
 for p in range(1, 10):
  urlList.append('http://s.wanfangdata.com.cn/Paper.aspx&#63;q=%E5%8C%BB%E5%AD%A6&p=' + str(p))

 # 一般方式
 n_start = time.time()
 for each in urlList:
  open_url(each)
 n_end = time.time()
 print 'the normal way take %s s' % (n_end-n_start)

# 多线程
 t_start = time.time()
 threadList = [MyThread(open_url, (url,)) for url in urlList]
 for t in threadList:
  t.setDaemon(True)
  t.start()
 for i in threadList:
  i.join()
 t_end = time.time()
 print 'the thread way take %s s' % (t_end-t_start)

두 가지 방법을 사용하면 상대적으로 느린 접속 속도로 10개의 웹페이지를 얻을 수 있습니다. 일반적인 방법은 50초, 멀티스레딩은 10초가 걸립니다.
다중 스레드 코드 해석:

# 创建线程类，继承Thread类
class MyThread(threading.Thread):
 def __init__(self, func, args):
  threading.Thread.__init__(self) # 调用父类的构造函数
  self.args = args
  self.func = func

 def run(self): # 线程活动方法
  apply(self.func, self.args)




threadList = [MyThread(open_url, (url,)) for url in urlList] # 调用线程类创建新线程，返回线程列表
 for t in threadList:
  t.setDaemon(True) # 设置守护线程，父线程会等待子线程执行完后再退出
  t.start() # 线程开启
 for i in threadList:
  i.join() # 等待线程终止，等子线程执行完后再执行父线程

위 내용은 이 글의 전체 내용입니다. 모든 분들의 공부에 도움이 되었으면 좋겠습니다.

성명：

이전 기사：Python 텍스트 유사성 계산의 편집 거리에 대한 자세한 설명다음 기사：Python 텍스트 유사성 계산의 편집 거리에 대한 자세한 설명

Python 크롤러 멀티스레딩에 대한 자세한 설명 및 예제 코드

관련 기사