首頁 >後端開發 >Python教學 >摩拜單車爬蟲源碼解析

摩拜單車爬蟲源碼解析

PHPz原創: 2017-04-04 10:40:342593瀏覽

前兩篇文章分析了我為什麼抓取摩拜單車的介面以及數據分析的結果，這篇文章中講直接提供可運行的源代碼供學習。。

#目錄結構

\analysis - jupyter做資料分析

\influx-importer - 匯入到influxdb，但之前沒怎麼弄好

module
s - 代理模組
\web - 即時圖形化顯示模組，當時只是為了學一下
react
#crawler.py - 爬蟲核心程式碼
importToDb.py - 匯入到postgres資料庫進行分析
核心程式碼放在crawler.py中，資料先儲存在
sqlite

變數

就可以了，十分簡單。

git clone https://github.com/derekhe/mobike-crawler
python3 crawler.py

我有一個代理池，每天基本上有8000以上的代理。在ProxyProvider中直接取得到這個代理池然後提供一個pick

函數

用於隨機選取得分前50的代理。請注意，我的代理池是每小時更新的，但是代碼中提供的

json

blob的代理列表僅僅是一個樣例，過一段時間後應該大部分都作廢了。在這裡用到一個代理得分的機制。我並不是直接隨機選擇代理，而是將代理按照得分高低進行排序。每一次成功的請求將加分，而出錯的請求將減分。這樣一會兒就能選出速度、品質最佳的代理商。如果有需要還可以存下來下次繼續用。

    def start(self):
        left = 30.7828453209
        top = 103.9213455517
        right = 30.4781772402
        bottom = 104.2178123382

        offset = 0.002

        if os.path.isfile(self.db_name):
            os.remove(self.db_name)

        try:
            with sqlite3.connect(self.db_name) as c:
                c.execute('''CREATE TABLE mobike
                    (Time DATETIME, bikeIds VARCHAR(12), bikeType TINYINT,distId INTEGER,distNum TINYINT, type TINYINT, x DOUBLE, y DOUBLE)''')
        except Exception as ex:
            pass

在實際使用中，透過proxyProvider.pick()選擇代理，然後使用。如果代理程式出現任何問題，則直接用proxy.fatal_error()降低評分，這樣後續就不會選擇到這個代理了。

        executor = ThreadPoolExecutor(max_workers=250)
        print("Start")
        self.total = 0
        lat_range = np.arange(left, right, -offset)
        for lat in lat_range:
            lon_range = np.arange(top, bottom, offset)
            for lon in lon_range:
                self.total += 1
                executor.submit(self.get_nearby_bikes, (lat, lon))

        executor.shutdown()
        self.group_data()

好了，基本上就到此了～～～其他的程式碼自己研究吧～～～#

以上是摩拜單車爬蟲源碼解析的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：python爬蟲的實踐下一篇：python爬蟲的實踐

看更多