首頁  >  文章  >  後端開發  >  Python爬蟲DNS如何解析快取的方法詳解

Python爬蟲DNS如何解析快取的方法詳解

黄舟
黄舟原創
2017-06-04 10:10:482071瀏覽

這篇文章主要介紹了Python爬蟲DNS解析快取方法,結合具體實例形式分析了Python使用socket模組解析DNS快取的相關操作技巧與注意事項,需要的朋友可以參考下

本文實例講述了Python爬蟲DNS解析快取方法。分享給大家供大家參考,具體如下:

前言:

這是Python爬蟲中DNS解析快取模組中的核心程式碼,是去年的程式碼了,現在放出來有興趣的可以看一下。

一般一個網域的DNS解析時間在10~60毫秒之間,這看起來是微不足道,但是對於大型一點的爬蟲而言這就不容忽視了。例如我們要爬新浪微博,同個網域下的請求有1千萬(這已經不算多的了),那麼耗時在10~60萬秒之間,一天才86400秒。也就是說單DNS解析這一項就花了好幾天時間,此時加上DNS解析緩存,效果就明顯了。

下面直接放程式碼,說明在後面。

程式碼:##

# encoding=utf-8
# ---------------------------------------
#  版本:0.1
#  日期:2016-04-26
#  作者:九茶<bone_ace@163.com>
#  开发环境:Win64 + Python 2.7
# ---------------------------------------
import socket
# from gevent import socket
_dnscache = {}
def _setDNSCache():
  """ DNS缓存 """
  def _getaddrinfo(*args, **kwargs):
    if args in _dnscache:
      # print str(args) + " in cache"
      return _dnscache[args]
    else:
      # print str(args) + " not in cache"
      _dnscache[args] = socket._getaddrinfo(*args, **kwargs)
      return _dnscache[args]
  if not hasattr(socket, &#39;_getaddrinfo&#39;):
    socket._getaddrinfo = socket.getaddrinfo
    socket.getaddrinfo = _getaddrinfo

#說明:

其實也沒什麼難度,就是將socket裡面的快取保存下來,避免重複取得。

可以將上面的程式碼放在一個dns_cache.py檔案裡,爬蟲
框架裡呼叫一下這個_setDNSCache()方法就行了。

要說明一下的是,如果你使用了gevent協程,並且用上了

monkey<a href="http://www.php.cn/wiki/1051.html" target="_blank">.patch_</a>all<a href="http://www.php.cn/wiki/1483.html" target="_blank">()</a>,要注意此時爬蟲已經改用gevent裡面的socket了,DNS解析快取模組也應該要用gevent的socket才行。

以上是Python爬蟲DNS如何解析快取的方法詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn