Heim >Web-Frontend >js-Tutorial >Node.js crawlt verstümmelte Probleme chinesischer Webseiten und löst_node.js
Wenn Node.js nicht-utf-8-chinesische Webseiten crawlt, werden verstümmelte Zeichen angezeigt. Die Homepage-Codierung von NetEase ist beispielsweise gb2312, und beim Crawlen werden verstümmelte Zeichen angezeigt
console.log(body)
})
URL: URL,
Kodierung: null,
Überschriften: Überschriften
}
originRequest(options, callback)
}
request(url, function (err, res, body) {
console.log(html)
})
Verwenden Sie Cheerio, um HTML zu analysieren
cheeriokann einfach und grob als serverseitiger jQuery-Selektor verstanden werden. Damit ist es viel intuitiver als reguläre Ausdrücke Installation
Überprüfen Sie das Dokument
, um herauszufinden, dass Sie die Funktion zum Konvertieren der Entitätskodierung deaktivieren können