>  기사  >  웹 프론트엔드  >  Nodejs의 서버 측 문자 인코딩, 디코딩 및 잘못된 처리 방법 소개

Nodejs의 서버 측 문자 인코딩, 디코딩 및 잘못된 처리 방법 소개

巴扎黑
巴扎黑원래의
2017-09-05 09:48:511275검색

이 글은 Nodejs의 고급 서버 측 문자 인코딩, 디코딩 및 왜곡 처리를 주로 소개합니다. 관심 있는 친구들은 참고할 수 있습니다.

앞에 작성됨

웹 서버 개발 중 문자 인코딩 그리고 디코딩은 거의 매일 처리됩니다. 인코딩과 디코딩이 제대로 처리되지 않으면 문제가 되는 문자 깨짐 현상이 발생합니다.

노드 서버 개발에 종사하는 많은 학생들은 문자 인코딩 코드에 대한 지식이 부족하여 문제에 직면했을 때 헤매고 문제 해결에 많은 시간을 소비하는 경우가 많습니다.

텍스트는 먼저 문자 인코딩 및 디코딩에 대한 기본 지식을 간략하게 소개한 다음 노드에서 인코딩 및 디코딩하는 방법에 대한 예제를 제공하고 마지막으로 서버 측 코드 예제입니다. 이 기사와 관련된 코드 예제는 여기에서 찾을 수 있습니다.

문자 인코딩 및 디코딩 정보

네트워크 통신 과정에서는 전송된 콘텐츠가 텍스트인지 그림인지에 관계없이 바이너리 비트가 전송되며 사용되는 언어는 중국어 또는 영어입니다.

예를 들어 클라이언트는 "Hello"를 서버로 보냅니다.

클라이언트 --- Hello ---> 서버 客户端 --- 你好 ---> 服务端

这中间包含了两个关键步骤,分别对应的是编码、解码。

1.客户端:将"你好"这个字符串,编码成计算机网络需要的二进制比特位。

2.服务端:将接收到的二进制比特位,解码成"你好"这个字符串。

总结一下:

1.编码:将需要传送的数据,转成对应的二进制比特位。

2.解码:将二进制比特位,转成原始的数据。

上面有些重要的技术细节没有提到,答案在下一小节。

  • 客户端怎么知道"你好"这个字符对应的比特位是多少?

  • 服务端收到二进制比特位之后,怎么知道对应的字符串是什么?

关于字符集和字符编码

上面提到字符、二进制的转换问题。既然两者可以互相转换,也就是说存在明确的转换规则,可以实现字符e09be6022d700e04aeaa85a5f42fdcb2二进制的相互转换。

这里提到的转换规则,其实就是我们经常听到的字符集&字符编码。

字符集是一系列字符(文字、标点符号等)的集合。字符集有很多,常见的有ASCII、Unicode、GBK等。不同字符集主要的区别在于包含字符个数的不同。

了解了字符集的概念后,接下来介绍下字符编码。

字符集告诉我们支持哪些字符,但具体字符怎么编码,是由字符编码决定的。比如Unicode字符集,支持的字符编码有UTF8(常用)、UTF16、UTF32。

概括一下:

  • 字符集:字符的集合,不同字符集包含的字符数不同。

  • 字符编码:字符集中字符的实际编码方式。

  • 一个字符集可能有多种字符编码方式。

可以把字符编码看成一个映射表,客户端、服务端就是根据这个映射表,来实现字符跟二进制的编解码转换。

举个例子,"你"这个字符,在UTF8编码中,占据三个字节0xe4 0xbd 0xa0,而在GBK编码中,占据两个字节0xc4 0xe3。

字符编解码例子

上面已经提到了字符编解码所需的基础知识。下面我们看一个简单的例子,这里借助了icon-lite这个库来帮助我们实现编解码的操作。

可以看到,在字符编码时,我们采用了gbk。在解码时,如果同样采用gbk,可以得到原始的字符。而当我们解码时采用utf8时,则出现了乱码。


var iconv = require('iconv-lite');

var oriText = '你';

var encodedBuff = iconv.encode(oriText, 'gbk');
console.log(encodedBuff);
// <Buffer c4 e3>

var decodedText = iconv.decode(encodedBuff, &#39;gbk&#39;);
console.log(decodedText);
// 你

var wrongText = iconv.decode(encodedBuff, &#39;utf8&#39;);
console.log(wrongText);
// ��

实际例子:服务端编解码

通常我们需要处理编解码的场景有文件读写、网络请求处理。这里距网络请求的例子,介绍如何在服务端进行编解码。

假设我们运行着如下http服务,监听来自客户端的请求。客户端传输数据时采用了gbk编码,而服务端默认采用的是utf8编码。

如果此时采用默认的utf8

여기에는 인코딩과 디코딩에 해당하는 두 가지 주요 단계가 포함되어 있습니다.

1. 클라이언트: "Hello" 문자열을 컴퓨터 네트워크에서 요구하는 바이너리 비트로 인코딩합니다.

2. 서버: 수신된 바이너리 비트를 "Hello" 문자열로 디코딩합니다.

요약하자면:

🎜1. 인코딩: 전송할 데이터를 해당 바이너리 비트로 변환합니다. 🎜🎜🎜2. 디코딩: 바이너리 비트를 원본 데이터로 변환합니다. 🎜🎜몇 가지 중요한 기술적 세부 사항은 위에 언급되지 않았습니다. 답변은 다음 섹션에 있습니다. 🎜
  • 🎜 클라이언트는 "Hello" 문자에 해당하는 비트 수를 어떻게 알 수 있나요? 🎜
  • 🎜서버가 바이너리 비트를 수신한 후 해당 문자열이 무엇인지 어떻게 알 수 있나요? 🎜
🎜🎜문자 집합 및 문자 인코딩에 대하여🎜🎜🎜문자 및 바이너리 변환 문제는 위에 언급되어 있습니다. 둘은 서로 변환될 수 있기 때문에, 즉 명확한 변환 규칙이 있고 e09be6022d700e04aeaa85a5f42fdcb2 문자는 바이너리로 변환될 수 있습니다. 🎜🎜여기에 언급된 변환 규칙은 실제로 우리가 자주 듣는 문자 세트 및 문자 인코딩입니다. 🎜🎜문자 세트는 문자(텍스트, 구두점 등)의 모음입니다. 많은 문자 세트가 있으며 일반적인 문자 세트에는 ASCII, 유니코드, GBK 등이 포함됩니다. 다양한 문자 세트의 주요 차이점은 포함된 문자 수입니다. 🎜🎜문자 집합의 개념을 이해한 후 문자 인코딩에 대해 소개하겠습니다. 🎜🎜문자 세트는 어떤 문자가 지원되는지 알려주지만 특정 문자를 인코딩하는 방법은 문자 인코딩에 따라 결정됩니다. 예를 들어, 유니코드 문자 세트는 UTF8(일반적으로 사용됨), UTF16 및 UTF32와 같은 문자 인코딩을 지원합니다. 🎜🎜요약하자면: 🎜
  • 🎜문자 세트: 문자 모음입니다. 문자 세트에 따라 문자 수가 다릅니다. 🎜
  • 🎜문자 인코딩: 문자 집합에 있는 문자의 실제 인코딩입니다. 🎜
  • 🎜문자 집합에는 여러 문자 인코딩 방법이 있을 수 있습니다. 🎜
🎜문자 인코딩은 매핑 테이블로 간주할 수 있습니다. 클라이언트와 서버는 이 매핑 테이블을 사용하여 문자 및 바이너리 인코딩 및 디코딩 변환을 구현합니다. 🎜🎜예를 들어 문자 "you"는 UTF8 인코딩에서 3바이트 0xe4 0xbd 0xa0을 차지하고, GBK 인코딩에서는 2바이트 0xc4 0xe3을 차지합니다. 🎜🎜🎜문자 인코딩 및 디코딩 예제🎜🎜🎜 위에서 문자 인코딩 및 디코딩에 필요한 기본 지식을 언급했습니다. 아래에서 icon-lite 라이브러리를 사용하여 인코딩 및 디코딩 작업을 구현하는 간단한 예를 살펴보겠습니다. 🎜🎜문자 인코딩 시 gbk를 사용하는 것을 볼 수 있습니다. 디코딩할 때 gbk도 사용하면 원본 문자를 얻을 수 있습니다. 디코딩 시 utf8을 사용하면 잘못된 문자가 나타납니다. 🎜🎜🎜🎜
var http = require(&#39;http&#39;);
var iconv = require(&#39;iconv-lite&#39;);

// 假设客户端采用post方法,编码为gbk
var server = http.createServer(function (req, res) {
  var chunks = [];
  
  req.on(&#39;data&#39;, function (chunk) {
    chunks.push(chunk)
  });

  req.on(&#39;end&#39;, function () {
    chunks = Buffer.concat(chunks);

    // 对二进制进行解码
    var body = iconv.decode(chunks, &#39;gbk&#39;);
    console.log(body);

    res.end(&#39;HELLO FROM SERVER&#39;);
  });

});

server.listen(3000);
🎜🎜실제 예: 서버 측 인코딩 및 디코딩🎜🎜🎜일반적으로 인코딩 및 디코딩을 처리해야 하는 시나리오에는 파일 읽기 및 쓰기, 네트워크 요청 처리가 포함됩니다. 다음은 서버 측에서 인코딩 및 디코딩하는 방법을 소개하는 네트워크 요청의 예입니다. 🎜🎜다음 http 서비스를 실행하고 클라이언트의 요청을 수신한다고 가정해 보겠습니다. 클라이언트는 데이터를 전송할 때 gbk 인코딩을 사용하는 반면, 서버는 기본적으로 utf8 인코딩을 사용합니다. 🎜🎜이때 기본 utf8을 사용하여 요청을 디코딩하면 왜곡된 문자가 나타나므로 특별한 처리가 필요합니다. 🎜🎜서버 코드는 다음과 같습니다. (코드 단순화를 위해 요청 방식 및 요청 인코딩 판단은 여기서 생략합니다.) 🎜🎜🎜🎜
var http = require(&#39;http&#39;);
var iconv = require(&#39;iconv-lite&#39;);

var charset = &#39;gbk&#39;;

// 对字符"你"进行编码
var reqBuff = iconv.encode(&#39;你&#39;, charset);

var options = {
  hostname: &#39;127.0.0.1&#39;,
  port: &#39;3000&#39;,
  path: &#39;/&#39;,
  method: &#39;POST&#39;,
  headers: {
    &#39;Content-Type&#39;: &#39;text/plain&#39;,
    &#39;Content-Encoding&#39;: &#39;identity&#39;,
    &#39;Charset&#39;: charset // 设置请求字符集编码
  }
};

var client = http.request(options, function(res) {
  res.pipe(process.stdout);
});

client.end(reqBuff);
🎜해당 클라이언트 코드는 다음과 같습니다. 🎜🎜🎜🎜rrreee

위 내용은 Nodejs의 서버 측 문자 인코딩, 디코딩 및 잘못된 처리 방법 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.