首頁  >  文章  >  web前端  >  node.js實作微信小程式抓取網頁內容

node.js實作微信小程式抓取網頁內容

不言
不言轉載
2018-10-20 17:17:242831瀏覽

這篇文章帶給大家的內容是關於node.js實作微信小程式抓取網頁內容,有一定的參考價值,有需要的朋友可以參考一下,希望對你有幫助。

最近在研究微信小程式的雲端開發功能。雲端開發最大的好處就是不需要前端搭建伺服器,可以使用雲端能力,從零開始寫出來一個能上線的微信小程序,避免了買伺服器的開銷,對於個人來嘗試練手微信小程序從前端到後台的開發,還是不錯的選擇。可以做到一天就能上線一個微信小程式。

雲端開發的優點

雲端開發為開發者提供完整的雲端支持,弱化後端和維運概念,無需搭建伺服器,使用平台提供的API進行核心業務開發,即可實現快速上線和迭代,同時這項能力,同開發者已經使用的雲端服務相互相容,並不互斥。

雲端開發目前提供三大基礎能力支援:

  1. 雲端函數:在雲端運行的程式碼,微信私有協定天然鑑權,開發者只需編寫自身業務邏輯代碼

  2. 資料庫:一個既可在小程式前端操作,也能在雲端函數中讀寫的JSON 資料庫

  3. 存儲:在小程式前端直接上傳/下載雲端文件,在雲端開發控制台可視化管理

好了,介紹了這麼多關於雲端開發的知識,感性的同學可以去研究研究。官方文件網址:https://developers.weixin.qq....

網頁內容抓取

小程式是關於答案的,所以題目的來源是一個問題。上網搜,一個題目一個題目貼是一種方法,但是這樣的重複工作,估計黏個10左右就想放棄了。所以想到了網頁抓取。正好把之前學的node撿起來。

必備工具:

  1. Cheerio。一個類似伺服器端JQuery的套件。主要用它來分析和過濾抓取來的內容。

  2. node的fs模組。這個是node自備的模組,用來讀寫檔案的。此處用來將解析好的資料寫入json檔。

  3. Axios(非必須)。用來抓取網站的HTML網頁。因為我要的資料是從網頁點選一個button後取得渲染的,所以直接造訪這個網址是抓取不到的。無奈只能將想要的內容複製出來,存成字串,去解析這個字串。

接下來就可以用npm init來初始化一個node項目,一路回車後,即可產生一個package.json檔案。
然後npm install --save axios cheerio安裝cheerio和axios套件。

關鍵的是用cheerio來實作一個類似jquery的功能。只要將抓取到的內容cheerio.load(quesitons)一下即可,之後就可以按照jquery的操作取dom,組裝你想要的資料了。

最後用fs.writeFile將資料儲存到json檔案中,大功告成。

具體程式碼如下

let axios = require("axios");

let cheerio = require("cheerio");

let fs = require("fs");

// 我的html结构大致如下,有很多条数据
const questions = `
  •       
            
    举头望明月,__________。
            
              回首白云低         
            
              低头思故乡         
            
              当春乃发生         
            
              红掌拨清波         
          
        
  •     
  •       
            
    __________,却话巴山夜雨时。
            
              何当共剪西窗烛         
            
              在天愿做比翼鸟         
            
              世味年来薄似纱         
            
              两岸青山相对出         
          
        
  •     ..........     `;      const $ = cheerio.load(quesitons); var arr = []; for (var i = 0; i  {    if (err) throw err;    console.log("json文件已成功保存!"); });

    儲存到json後的檔案格式如下,這樣就可以透過json檔案上傳到雲端伺服器了。

    node.js實作微信小程式抓取網頁內容

    #注意事項

    #微信小程式雲開發的資料庫,上傳json檔案的資料格式需要注意一下,之前一直提示格式錯誤,後來才發現,JSON 資料不是數組,而是類似JSON Lines,即各個記錄物件之間使用n 分隔,而非逗號。所以還需要對node寫出來的json檔案做一個小處理之後才能上傳成功。

    #

    以上是node.js實作微信小程式抓取網頁內容的詳細內容。更多資訊請關注PHP中文網其他相關文章!

    陳述:
    本文轉載於:segmentfault.com。如有侵權,請聯絡admin@php.cn刪除