Heim >Web-Frontend >js-Tutorial >Informationen zur serverseitigen Zeichenkodierung, Dekodierung und verstümmelten Verarbeitung von Nodejs

Informationen zur serverseitigen Zeichenkodierung, Dekodierung und verstümmelten Verarbeitung von Nodejs

不言
不言Original
2018-06-30 11:12:372410Durchsuche

Dieser Artikel stellt hauptsächlich die erweiterte serverseitige Zeichencodierung und -decodierung sowie die verstümmelte Verarbeitung von Nodejs vor. Er hat einen gewissen Referenzwert.

Vorab geschrieben

Bei der Webserver-Entwicklung muss man sich fast täglich mit der Kodierung und Dekodierung von Zeichen befassen. Sobald die Kodierung und Dekodierung nicht ordnungsgemäß gehandhabt wird, treten störende verstümmelte Zeichen auf.

Viele Studenten, die sich mit der Entwicklung von Knotenservern befassen, sind aufgrund unzureichender Kenntnisse der Zeichenkodierungscodes oft ratlos, wenn sie auf Probleme stoßen, und verbringen viel Zeit mit der Fehlerbehebung und Problemlösung.

Der Text führt zunächst kurz in die Grundkenntnisse der Zeichenkodierung und -dekodierung ein, gibt dann Beispiele für die Kodierung und Dekodierung im Knoten und schließlich ein serverseitiges Codebeispiel. Codebeispiele zu diesem Artikel finden Sie hier.

Informationen zur Zeichenkodierung und -dekodierung

Im Prozess der Netzwerkkommunikation werden Binärbits übertragen, unabhängig davon, ob es sich bei dem gesendeten Inhalt um Text oder Bilder handelt und welche Sprache verwendet wird es Chinesisch oder Englisch.

Zum Beispiel sendet der Client „Hallo“ an den Server.

客户端 --- 你好 ---> 服务端

Dies enthält zwei wichtige Schritte, die der Kodierung bzw. Dekodierung entsprechen.

1. Client: Codieren Sie die Zeichenfolge „Hallo“ in die vom Computernetzwerk benötigten Binärbits.

2. Server: Dekodieren Sie die empfangenen Binärbits in die Zeichenfolge „Hallo“.

Zusammenfassend:

1. Kodierung: Konvertieren Sie die zu übertragenden Daten in die entsprechenden Binärbits.

2. Dekodierung: Binärbits in Originaldaten umwandeln.

Einige wichtige technische Details werden oben nicht erwähnt, die Antworten finden Sie im nächsten Abschnitt.

  • Woher weiß der Client, welche Bits dem Zeichen „Hallo“ entsprechen?

  • Nachdem der Server die Binärbits empfangen hat, woher weiß er, was die entsprechende Zeichenfolge ist?

Über Zeichensätze und Zeichenkodierungen

Das Problem der Zeichen- und Binärkonvertierung wurde oben erwähnt. Da die beiden ineinander konvertiert werden können, gibt es klare Konvertierungsregeln und die Zeichen e09be6022d700e04aeaa85a5f42fdcb2 können in Binärzeichen umgewandelt werden.

Die hier erwähnten Konvertierungsregeln sind eigentlich die Zeichensätze und Zeichenkodierungen, die wir oft hören.

Ein Zeichensatz ist eine Sammlung von Zeichen (Text, Satzzeichen usw.). Es gibt viele Zeichensätze, zu den gebräuchlichsten gehören ASCII, Unicode, GBK usw. Der Hauptunterschied zwischen verschiedenen Zeichensätzen besteht in der Anzahl der darin enthaltenen Zeichen.

Nachdem wir das Konzept des Zeichensatzes verstanden haben, führen wir die Zeichenkodierung ein.

Der Zeichensatz sagt uns, welche Zeichen unterstützt werden, aber wie bestimmte Zeichen codiert werden, hängt von der Zeichencodierung ab. Der Unicode-Zeichensatz unterstützt beispielsweise Zeichenkodierungen wie UTF8 (häufig verwendet), UTF16 und UTF32.

Um es zusammenzufassen:

  • Zeichensatz: Eine Sammlung von Zeichen. Verschiedene Zeichensätze enthalten eine unterschiedliche Anzahl von Zeichen.

  • Zeichenkodierung: Die tatsächliche Kodierung der Zeichen im Zeichensatz.

  • Ein Zeichensatz kann mehrere Zeichenkodierungsmethoden haben.

Sie können sich die Zeichenkodierung als eine Zuordnungstabelle vorstellen. Der Client und der Server verwenden diese Zuordnungstabelle, um die Zeichen- und Binärkodierungs- und Dekodierungskonvertierung zu implementieren.

Zum Beispiel belegt das Zeichen „you“ in der UTF8-Kodierung drei Bytes 0xe4 0xbd 0xa0 und in der GBK-Kodierung zwei Bytes 0xc4 0xe3.

Beispiele für die Kodierung und Dekodierung von Zeichen

Die für die Kodierung und Dekodierung von Zeichen erforderlichen Grundkenntnisse wurden oben erwähnt. Schauen wir uns unten ein einfaches Beispiel an, in dem wir die Icon-Lite-Bibliothek verwenden, um Kodierungs- und Dekodierungsvorgänge zu implementieren.

Wie Sie sehen können, verwenden wir gbk zum Codieren von Zeichen. Wenn Sie beim Dekodieren auch gbk verwenden, können Sie die Originalzeichen erhalten. Wenn wir beim Dekodieren utf8 verwenden, erscheinen verstümmelte Zeichen.

var iconv = require('iconv-lite');

var oriText = '你';

var encodedBuff = iconv.encode(oriText, 'gbk');
console.log(encodedBuff);
// <Buffer c4 e3>

var decodedText = iconv.decode(encodedBuff, &#39;gbk&#39;);
console.log(decodedText);
// 你

var wrongText = iconv.decode(encodedBuff, &#39;utf8&#39;);
console.log(wrongText);
// ��

Praktisches Beispiel: serverseitige Kodierung und Dekodierung

Normalerweise das Szenario, in dem wir uns mit der Kodierung befassen müssen Die Dekodierung umfasst das Lesen und Schreiben von Dateien sowie die Verarbeitung von Netzwerkanforderungen. Hier ist ein Beispiel für eine Netzwerkanforderung, das die Kodierung und Dekodierung auf der Serverseite vorstellt.

Angenommen, wir führen den folgenden http-Dienst aus und warten auf Anfragen von Kunden. Der Client verwendet beim Übertragen von Daten die gbk-Kodierung, während der Server standardmäßig die utf8-Kodierung verwendet.

Wenn zu diesem Zeitpunkt die Standardeinstellung utf8 zum Dekodieren der Anfrage verwendet wird, werden verstümmelte Zeichen angezeigt, sodass eine spezielle Verarbeitung erforderlich ist.

Der Servercode lautet wie folgt (zur Vereinfachung des Codes wird die Beurteilung der Anforderungsmethode und der Anforderungscodierung hier übersprungen)

var http = require(&#39;http&#39;);
var iconv = require(&#39;iconv-lite&#39;);

// 假设客户端采用post方法,编码为gbk
var server = http.createServer(function (req, res) {
  var chunks = [];
  
  req.on(&#39;data&#39;, function (chunk) {
    chunks.push(chunk)
  });

  req.on(&#39;end&#39;, function () {
    chunks = Buffer.concat(chunks);

    // 对二进制进行解码
    var body = iconv.decode(chunks, &#39;gbk&#39;);
    console.log(body);

    res.end(&#39;HELLO FROM SERVER&#39;);
  });

});

server.listen(3000);

Der Entsprechender Client Der Code lautet wie folgt:

var http = require(&#39;http&#39;);
var iconv = require(&#39;iconv-lite&#39;);

var charset = &#39;gbk&#39;;

// 对字符"你"进行编码
var reqBuff = iconv.encode(&#39;你&#39;, charset);

var options = {
  hostname: &#39;127.0.0.1&#39;,
  port: &#39;3000&#39;,
  path: &#39;/&#39;,
  method: &#39;POST&#39;,
  headers: {
    &#39;Content-Type&#39;: &#39;text/plain&#39;,
    &#39;Content-Encoding&#39;: &#39;identity&#39;,
    &#39;Charset&#39;: charset // 设置请求字符集编码
  }
};

var client = http.request(options, function(res) {
  res.pipe(process.stdout);
});

client.end(reqBuff);

Das Obige ist der gesamte Inhalt dieses Artikels. Ich hoffe, dass er für das weitere Studium hilfreich ist Inhalt, achten Sie bitte auf die chinesische PHP-Website!

Verwandte Empfehlungen:

Über die einfache Kommunikationsfunktion zwischen NodeJS-Socket-Server und Client

So verwenden Sie ES6 im NodeJS-Projekt

Das obige ist der detaillierte Inhalt vonInformationen zur serverseitigen Zeichenkodierung, Dekodierung und verstümmelten Verarbeitung von Nodejs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn