首頁 >web前端 >js教程 >Node.js抓取中文網頁亂碼問題和解決方法_node.js

Node.js抓取中文網頁亂碼問題和解決方法_node.js

WBOY
WBOY原創
2016-05-16 16:14:491879瀏覽

Node.js 抓取非 utf-8 的中文網頁時會出現亂碼問題,例如網易的首頁編碼是 gb2312,抓取時會出現亂碼

複製程式碼 程式碼如下:

var request = require('request') 
var url = 'http://www.163.com'

request(url, function (err, res, body) { 
    console.log(body)
})


可以使用 iconv-lite 來解決

安裝

複製程式碼 程式碼如下:

npm install iconv-lite 

同時我們順帶把 user-agent 修改一下,以防網站封鎖:
複製程式碼 程式碼如下:

var originRequest = require('request') 
var iconv = require('iconv-lite') 
var headers = { 
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

function request (url, callback) { 
  var options = {
    url: url,
    encoding: null,
    headers: headers
  }
  originRequest(options, callback)
}

request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    console.log(html)
})

亂碼問題解決

使用 cheerio 解析 HTML

cheerio 可以簡單粗暴的理解為伺服器端 jQuery 選擇器,有了它,比正則要更加直觀許多

安裝

複製程式碼 程式碼如下:

npm install cheerio 
request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    var $ = cheerio.load(html)
    console.log($('h1').text())
    console.log($('h1').html())
})

輸出如下
複製程式碼 程式碼如下:

網易
網易

那麼問題來了,$('h1').html() 輸出的程式碼是經過 Unicode 編碼的,網易變成了網易,給我們的字元處理帶來了一些麻煩

解決 cheerio .html() 「亂碼」問題
查閱文件可知,可以關閉這個轉換實體編碼的功能

複製程式碼 程式碼如下:

var $ = cheerio.load(html) 

改成
複製程式碼 程式碼如下:

var $ = cheerio.load(html, {decodeEntities: false})

即可,完整程式碼如下:
複製程式碼 程式碼如下:

var originRequest = require('request') 
var Cheerio = require('cheerio') 
var iconv = require('iconv-lite') 
var headers = { 
  '使用者代理程式': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, 如 Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

函數請求(url、回呼){ 
  var 選項 = {
    網址:網址,
    編碼:空,
    標題:標題
  }
  originRequest(選項,回呼)
}

var url = 'http://www.163.com'

請求(url,函數(錯誤,res,正文){ 
    var html = iconv.decode(body, 'gb2312')
    var $ = Cheerio.load(html, {decodeEntities: false})
    console.log($('h1').text())
    console.log($('h1').html())
})

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn