検索
ホームページウェブフロントエンドhtmlチュートリアルノード クローラー gbk Web ページの中国語が文字化けする solution_html/css_WEB-ITnose

nodeをクローラとして使用した際に遭遇した中国語文字化け問題が解決していないので今日はメモを整理します。 (追記: インターネット上の一部の解決策は機能しなくなりました)

中国語の文字化けコードは、特にノードを使用して gbk エンコードされた Web ページをリクエストすることを指しており、Web ページ内の中国語を正しく取得できません (トランスコーディングが必要です)。 、「gbk」と「web page」「中文」の2つの条件が必須です。 utf-8 でエンコードされた Web ページでは中国語を取得できます。また、gbk でエンコードされた Web ページなどでは英語の数字を取得できます。

簡単な例を挙げてください。 http://acm.hdu.edu.cn/statistic.php?pid=1000 に対する最初の答えが得られるユーザー名は「Aurora Dazzling Shadow」です。スクラッチして次のコードを書きます:

var cheerio = require('cheerio')  , superagent = require('superagent')  , express = require('express');var url = 'http://acm.hdu.edu.cn/statistic.php?pid=1000';var app = express();app.get('/', function (req, res, next) {  superagent.get(url)    .end(function (err, sres) {      var html = sres.text;      var $ = cheerio.load(html, {decodeEntities: false});      var ans = $('.table_text td a').eq(0).html();      res.send(ans);    });  });app.listen(3000, function () {  console.log('app is listening at port 3000');});

次のように文字化けしてしまいました:

������Ӱ

正しい中国語を取得するにはどうすればよいですか?ここでは、緊急時の解決策をいくつか紹介します (原則には関係ありません。緊急時のみです)。

方法 1:

superagent-charset モジュールを使用します。

var cheerio = require('cheerio')  , superagent = require('superagent-charset')  , express = require('express');var url = 'http://acm.hdu.edu.cn/statistic.php?pid=1000';var app = express();app.get('/', function (req, res, next) {  superagent.get(url)    .charset('gbk')    .end(function (err, sres) {      var html = sres.text;      var $ = cheerio.load(html, {decodeEntities: false});      var ans = $('.table_text td a').eq(0).html();      res.send(ans);    });});app.listen(3000, function () {  console.log('app is listening at port 3000');});

使い方は非常に簡単で、superagent-charset モジュールを導入し、チェーンを呼び出すときに charset パラメータを追加するだけです。 superagent-charset モジュールには、superAgent モジュールと iconv-lite モジュールが含まれています。ソースコードはGithubで見つけることができます。

方法 2:

iconv-lite モジュールを直接使用してトランスコードします。

iconv-lite は、エンコード変換用のモジュールです(ノードのデフォルトエンコードはutf-8)。デコードが必要なエンコードは、Buffer タイプである必要があります。

  • http モジュールを使用します:

    http.get(url, function(sres) {  var chunks = [];  sres.on('data', function(chunk) {    chunks.push(chunk);  });  sres.on('end', function() {    // 将二进制数据解码成 gb2312 编码数据    var html = iconv.decode(Buffer.concat(chunks), 'gb2312');    var $ = cheerio.load(html, {decodeEntities: false});    var ans = $('.table_text td a').eq(0).html();    res.send(ans);  });});
  • リクエスト モジュールを使用します:

    request({  url: url,   encoding: null  // 关键代码}, function (err, sres, body) {  var html = iconv.decode(body, 'gb2312')  var $ = cheerio.load(html, {decodeEntities: false});  var ans = $('.table_text td a').eq(0).html();  res.send(ans);});

    iconv を使用してデコードして渡しますin パラメーターはバッファーである必要があります。

    エンコーディング - 応答データの setEncoding で使用されるエンコーディング。null の場合、その他の値 ( のデフォルト値である未定義 を含む) がエンコーディングとして渡されます。 toString() のパラメータ (つまり、これはデフォルトでは事実上 utf8 です) (注意: バイナリ データを期待する場合は、エンコーディングを null に設定する必要があります。)

iconv - lite モジュールは、http モジュールおよび request モジュールとともに使用できますが、superAgent モジュールとともに直接使用することはできません。 superAgent は utf8 を使用してデータをフェッチし、iconv を使用して変換するため、機能しません。ページは gbk でエンコードされており、sres.text はデコードされています。つまり、utf8 に変換されており、バッファーに変換した結果は正しくないはずです。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
HTML:構造、CSS:スタイル、JavaScript:動作HTML:構造、CSS:スタイル、JavaScript:動作Apr 18, 2025 am 12:09 AM

Web開発におけるHTML、CSS、およびJavaScriptの役割は次のとおりです。1。HTMLは、Webページ構造を定義し、2。CSSはWebページスタイルを制御し、3。JavaScriptは動的な動作を追加します。一緒に、彼らは最新のウェブサイトのフレームワーク、美学、および相互作用を構築します。

HTMLの未来:ウェブデザインの進化とトレンドHTMLの未来:ウェブデザインの進化とトレンドApr 17, 2025 am 12:12 AM

HTMLの将来は、無限の可能性に満ちています。 1)新機能と標準には、より多くのセマンティックタグとWebComponentsの人気が含まれます。 2)Webデザインのトレンドは、レスポンシブでアクセス可能なデザインに向けて発展し続けます。 3)パフォーマンスの最適化により、応答性の高い画像読み込みと怠zyなロードテクノロジーを通じてユーザーエクスペリエンスが向上します。

HTML対CSS対JavaScript:比較概要HTML対CSS対JavaScript:比較概要Apr 16, 2025 am 12:04 AM

Web開発におけるHTML、CSS、およびJavaScriptの役割は次のとおりです。HTMLはコンテンツ構造を担当し、CSSはスタイルを担当し、JavaScriptは動的な動作を担当します。 1。HTMLは、セマンティクスを確保するためにタグを使用してWebページの構造とコンテンツを定義します。 2。CSSは、セレクターと属性を介してWebページスタイルを制御して、美しく読みやすくします。 3。JavaScriptは、動的でインタラクティブな関数を実現するために、スクリプトを通じてWebページの動作を制御します。

HTML:それはプログラミング言語か何か他のものですか?HTML:それはプログラミング言語か何か他のものですか?Apr 15, 2025 am 12:13 AM

htmlisnotaprogramminglanguage; itisamarkuplanguage.1)htmlStructuresandformatswebcontentusingtags.2)ItworkswithcsssssssssdjavascriptforInteractivity、強化を促進します。

HTML:Webページの構造の構築HTML:Webページの構造の構築Apr 14, 2025 am 12:14 AM

HTMLは、Webページ構造の構築の基礎です。 1。HTMLは、コンテンツ構造とセマンティクス、および使用などを定義します。タグ。 2. SEO効果を改善するために、などのセマンティックマーカーを提供します。 3.タグを介したユーザーの相互作用を実現するには、フォーム検証に注意してください。 4. JavaScriptと組み合わせて、動的効果を実現するなどの高度な要素を使用します。 5.一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれ、検証ツールが必要です。 6.最適化戦略には、HTTP要求の削減、HTMLの圧縮、セマンティックタグの使用などが含まれます。

テキストからウェブサイトへ:HTMLの力テキストからウェブサイトへ:HTMLの力Apr 13, 2025 am 12:07 AM

HTMLは、Webページを構築するために使用される言語であり、タグと属性を使用してWebページの構造とコンテンツを定義します。 1)htmlは、などのタグを介してドキュメント構造を整理します。 2)ブラウザはHTMLを分析してDOMを構築し、Webページをレンダリングします。 3)マルチメディア関数を強化するなど、HTML5の新機能。 4)一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれます。 5)最適化の提案には、セマンティックタグの使用とファイルサイズの削減が含まれます。

HTML、CSS、およびJavaScriptの理解:初心者向けガイドHTML、CSS、およびJavaScriptの理解:初心者向けガイドApr 12, 2025 am 12:02 AM

webdevelopmentReliesOnhtml、css、andjavascript:1)htmlStructuresContent、2)cssStylesit、および3)Javascriptaddsinteractivity、形成、

HTMLの役割:Webコンテンツの構造HTMLの役割:Webコンテンツの構造Apr 11, 2025 am 12:12 AM

HTMLの役割は、タグと属性を使用してWebページの構造とコンテンツを定義することです。 1。HTMLは、読みやすく理解しやすいようなタグを介してコンテンツを整理します。 2。アクセシビリティとSEOを強化するには、セマンティックタグなどを使用します。 3. HTMLコードの最適化により、Webページの読み込み速度とユーザーエクスペリエンスが向上する可能性があります。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター