在 Python 中优化 HTTP 请求调度
处理大规模 HTTP 请求可能会给 Python 带来挑战,特别是对于涉及数千个 URL 的任务。本文探讨了一种在 Python 2.6 中调度 100,000 个 HTTP 请求的高效解决方案,利用并发和线程来最大限度地提高性能。
Twistedless 解决方案:
以下代码片段提供一种快速有效的发送 HTTP 请求的方法同时:
from urlparse import urlparse from threading import Thread import httplib, sys from Queue import Queue concurrent = 200 def doWork(): while True: url = q.get() status, url = getStatus(url) doSomethingWithResult(status, url) q.task_done() def getStatus(ourl): try: url = urlparse(ourl) conn = httplib.HTTPConnection(url.netloc) conn.request("HEAD", url.path) res = conn.getresponse() return res.status, ourl except: return "error", ourl def doSomethingWithResult(status, url): print status, url q = Queue(concurrent * 2) for i in range(concurrent): t = Thread(target=doWork) t.daemon = True t.start() try: for url in open('urllist.txt'): q.put(url.strip()) q.join() except KeyboardInterrupt: sys.exit(1)
说明:
这种方法已被证明比基于 Twisted 的解决方案更快,同时还减少了 CPU 使用率。它提供了一种高效可靠的方式来处理Python 2.6中的大规模HTTP请求。
以上是如何在 Python 2.6 中优化 100,000 个 URL 的 HTTP 请求调度?的详细内容。更多信息请关注PHP中文网其他相关文章!