Scrapy與scrapy-splash框架快速載入js頁面-js教程-PHP中文網

首頁

web前端

js教程

Scrapy與scrapy-splash框架快速載入js頁面

小云云

Mar 07, 2018 pm 02:01 PM

javascriptscrapy

一、前言

我們在使用爬蟲程式爬取網頁時，一般對於靜態頁面的爬取是比較簡單的，之前寫過挺多的案例。但是對於使用js動態載入的頁面如何爬取呢？

對於動態js頁面的爬取有以下幾種爬取的方式：

#透過selenium+phantomjs實作。

phantomjs是一個無頭瀏覽器，selenium是一個自動化測試的框架，透過無頭瀏覽器請求頁面，等待js加載，再透過自動化測試selenium取得數據。因為無頭瀏覽器非常消耗資源，所在效能方面有所欠缺。

Scrapy-splash框架：

#Splash作為js渲染服務，是基於Twisted和QT開發的輕量瀏覽器引擎，並提供直接的http api。快速、輕量的特點使其容易進行分散式開發。
splash和scrapy爬蟲框架融合，兩種互相相容的特點，抓取效率較好。

二、Splash環境建置

Splash服務是基於docker容器的，所以我們需要先安裝docker容器。

2.1 docker安裝（windows 10 家用版）

如果是win 10專業版或其他作業系統，都是比較好安裝的，在windows 10家用版安裝docker需要透過toolbox（需要最新的）工具安裝才行。

關於docker的安裝，請參考文件：WIN10安裝Docker

2.2 splash安裝

docker pull scrapinghub/splash

2.3 啟動Splash服務

docker run -p 8050:8050 scrapinghub/splash

Scrapy與scrapy-splash框架快速載入js頁面

這個時候，打開你的瀏覽器，輸入192.168.99.100:8050你會看到出現了這樣的介面。

Scrapy與scrapy-splash框架快速載入js頁面

你可以在上圖紅色框框的地方輸入任意的網址，點擊後面的Render me! 來查看渲染之後的樣子

2.4 安裝python的scrapy-splash包

pip install scrapy-splash

三、scrapy爬蟲載入js專案測試，以google news為例。

由於業務需要爬取一些國外的新聞網站，如google news。但是發現居然是js程式碼。於是開始使用scrapy-splash框架，配合Splash的js渲染服務，取得資料。具體看如下程式碼：

3.1 settings.py配置資訊

# 渲染服务的urlSPLASH_URL = &#39;http://192.168.99.100:8050&#39;# 去重过滤器DUPEFILTER_CLASS = &#39;scrapy_splash.SplashAwareDupeFilter&#39;# 使用Splash的Http缓存HTTPCACHE_STORAGE = &#39;scrapy_splash.SplashAwareFSCacheStorage&#39;SPIDER_MIDDLEWARES = {    &#39;scrapy_splash.SplashDeduplicateArgsMiddleware&#39;: 100,
}#下载器中间件DOWNLOADER_MIDDLEWARES = {    &#39;scrapy_splash.SplashCookiesMiddleware&#39;: 723,    &#39;scrapy_splash.SplashMiddleware&#39;: 725,    &#39;scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware&#39;: 810,
}# 请求头DEFAULT_REQUEST_HEADERS = {    &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36&#39;,    &#39;Accept&#39;: &#39;text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8&#39;,
}# 管道ITEM_PIPELINES = {   &#39;news.pipelines.NewsPipeline&#39;: 300,
}

3.2 items欄位定義

class NewsItem(scrapy.Item):    # 标题
    title = scrapy.Field()    # 图片的url链接
    Scrapy與scrapy-splash框架快速載入js頁面_url = scrapy.Field()    # 新闻来源
    source = scrapy.Field()    # 点击的url
    action_url = scrapy.Field()

3.3 Spider程式碼

在spider目錄下，創建一個new_spider.py的文件，文件內容如下：

from scrapy import Spiderfrom scrapy_splash import SplashRequestfrom news.items import NewsItemclass GoolgeNewsSpider(Spider):
    name = "google_news"

    start_urls = ["https://news.google.com/news/headlines?ned=cn&gl=CN&hl=zh-CN"]    def start_requests(self):
        for url in self.start_urls:            # 通过SplashRequest请求等待1秒
            yield SplashRequest(url, self.parse, args={&#39;wait&#39;: 1})    def parse(self, response):
        for element in response.xpath(&#39;//p[@class="qx0yFc"]&#39;):
            actionUrl = element.xpath(&#39;.//a[@class="nuEeue hzdq5d ME7ew"]/@href&#39;).extract_first()
            title = element.xpath(&#39;.//a[@class="nuEeue hzdq5d ME7ew"]/text()&#39;).extract_first()
            source = element.xpath(&#39;.//span[@class="IH8C7b Pc0Wt"]/text()&#39;).extract_first()
            Scrapy與scrapy-splash框架快速載入js頁面Url = element.xpath(&#39;.//img[@class="lmFAjc"]/@src&#39;).extract_first()

            item = NewsItem()
            item[&#39;title&#39;] = title
            item[&#39;Scrapy與scrapy-splash框架快速載入js頁面_url&#39;] = Scrapy與scrapy-splash框架快速載入js頁面Url
            item[&#39;action_url&#39;] = actionUrl
            item[&#39;source&#39;] = source            yield item

3.4 pipelines.py代碼

將item的數據，儲存到mysql資料庫。

建立db_news資料庫

CREATE DATABASE db_news

建立tb_news表

CREATE TABLE tb_google_news(
    id INT AUTO_INCREMENT,
    title VARCHAR(50),
    Scrapy與scrapy-splash框架快速載入js頁面_url VARCHAR(200),
    action_url VARCHAR(200),
    source VARCHAR(30),    PRIMARY KEY(id)
)ENGINE=INNODB DEFAULT CHARSET=utf8;

Scrapy與scrapy-splash框架快速載入js頁面

class NewsPipeline(object):
    def __init__(self):
        self.conn = pymysql.connect(host=&#39;localhost&#39;, port=3306, user=&#39;root&#39;, passwd=&#39;root&#39;, db=&#39;db_news&#39;,charset=&#39;utf8&#39;)
        self.cursor = self.conn.cursor()    def process_item(self, item, spider):
        sql = &#39;&#39;&#39;insert into tb_google_news (title,Scrapy與scrapy-splash框架快速載入js頁面_url,action_url,source) values(%s,%s,%s,%s)&#39;&#39;&#39;
        self.cursor.execute(sql, (item["title"], item["Scrapy與scrapy-splash框架快速載入js頁面_url"], item["action_url"], item["source"]))
        self.conn.commit()        return item    def close_spider(self):
        self.cursor.close()
        self.conn.close()

NewsPipeline類別

scrapy crawl google_news

3.5 執行scrapy爬蟲

###在控制台執行：###rrreee###資料庫中展示如下圖：############## ##相關推薦：#########有關scrapy指令的基本介紹#############安裝Scrapy教學###########scrapy爬蟲框架的介紹######

以上是Scrapy與scrapy-splash框架快速載入js頁面的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

從C/C到JavaScript：所有工作方式Apr 14, 2025 am 12:05 AM

從C/C 轉向JavaScript需要適應動態類型、垃圾回收和異步編程等特點。 1）C/C 是靜態類型語言，需手動管理內存，而JavaScript是動態類型，垃圾回收自動處理。 2）C/C 需編譯成機器碼，JavaScript則為解釋型語言。 3）JavaScript引入閉包、原型鍊和Promise等概念，增強了靈活性和異步編程能力。

JavaScript引擎：比較實施Apr 13, 2025 am 12:05 AM

不同JavaScript引擎在解析和執行JavaScript代碼時，效果會有所不同，因為每個引擎的實現原理和優化策略各有差異。 1.詞法分析：將源碼轉換為詞法單元。 2.語法分析：生成抽象語法樹。 3.優化和編譯：通過JIT編譯器生成機器碼。 4.執行：運行機器碼。 V8引擎通過即時編譯和隱藏類優化，SpiderMonkey使用類型推斷系統，導致在相同代碼上的性能表現不同。

超越瀏覽器：現實世界中的JavaScriptApr 12, 2025 am 12:06 AM

JavaScript在現實世界中的應用包括服務器端編程、移動應用開發和物聯網控制：1.通過Node.js實現服務器端編程，適用於高並發請求處理。 2.通過ReactNative進行移動應用開發，支持跨平台部署。 3.通過Johnny-Five庫用於物聯網設備控制，適用於硬件交互。

使用Next.js（後端集成）構建多租戶SaaS應用程序Apr 11, 2025 am 08:23 AM

我使用您的日常技術工具構建了功能性的多租戶SaaS應用程序（一個Edtech應用程序），您可以做同樣的事情。首先，什麼是多租戶SaaS應用程序？多租戶SaaS應用程序可讓您從唱歌中為多個客戶提供服務

如何使用Next.js（前端集成）構建多租戶SaaS應用程序Apr 11, 2025 am 08:22 AM

本文展示了與許可證確保的後端的前端集成，並使用Next.js構建功能性Edtech SaaS應用程序。前端獲取用戶權限以控制UI的可見性並確保API要求遵守角色庫

JavaScript：探索網絡語言的多功能性Apr 11, 2025 am 12:01 AM

JavaScript是現代Web開發的核心語言，因其多樣性和靈活性而廣泛應用。 1)前端開發：通過DOM操作和現代框架（如React、Vue.js、Angular）構建動態網頁和單頁面應用。 2)服務器端開發：Node.js利用非阻塞I/O模型處理高並發和實時應用。 3)移動和桌面應用開發：通過ReactNative和Electron實現跨平台開發，提高開發效率。

JavaScript的演變：當前的趨勢和未來前景Apr 10, 2025 am 09:33 AM

JavaScript的最新趨勢包括TypeScript的崛起、現代框架和庫的流行以及WebAssembly的應用。未來前景涵蓋更強大的類型系統、服務器端JavaScript的發展、人工智能和機器學習的擴展以及物聯網和邊緣計算的潛力。

神秘的JavaScript：它的作用以及為什麼重要Apr 09, 2025 am 12:07 AM

JavaScript是現代Web開發的基石，它的主要功能包括事件驅動編程、動態內容生成和異步編程。 1)事件驅動編程允許網頁根據用戶操作動態變化。 2)動態內容生成使得頁面內容可以根據條件調整。 3)異步編程確保用戶界面不被阻塞。 JavaScript廣泛應用於網頁交互、單頁面應用和服務器端開發，極大地提升了用戶體驗和跨平台開發的靈活性。

See all articles