ホームページ > 記事 > ウェブフロントエンド > Node.js が中国語の Web ページをクロールする文字化けの問題と解決策_node.js
Node.js が utf-8 以外の中国語 Web ページをクロールすると文字化けが発生します。たとえば、NetEase のホームページのエンコードは gb2312 であり、クロール時に文字化けが発生します。
request(url, function (err, res, body) {
console.log(本体)
})
インストール
var オプション = {
URL: URL、
エンコーディング: null、
ヘッダー: ヘッダー
}
OriginRequest(オプション、コールバック)
}
var html = iconv.decode(body, 'gb2312')
console.log(html)
})
コード化けの問題が解決されました
cheerio を使用して HTML を解析します
cheerio は、サーバー側の jQuery セレクターとして単純かつ大まかに理解でき、正規表現よりもはるかに直感的です。 インストール
ドキュメント
を確認して、エンティティのエンコーディングを変換する機能をオフにできることを確認してください