Maison  >  Article  >  interface Web  >  qu'est-ce qu'Unicode

qu'est-ce qu'Unicode

清浅
清浅original
2019-01-26 10:56:1439234parcourir

Unicode est un système de codage de caractères qui définit un codage binaire unifié et unique pour chaque caractère dans chaque langue afin de répondre aux exigences de conversion et de traitement de texte multilingue et multiplateforme

Signification Unicode

Unicode fournit un numéro unique pour chaque caractère, quelle que soit la plateforme, quel que soit le programme, quelle que soit la langue. Il a été officiellement annoncé en 1994 et constitue une norme industrielle dans le domaine informatique, y compris les jeux de caractères, les schémas de codage, etc. Unicode a été créé pour résoudre les limites des schémas de codage de caractères traditionnels. Il définit un codage binaire unifié et unique pour chaque caractère dans chaque langue afin de répondre aux exigences de conversion et de traitement de texte multilingue et multiplateforme.

qu'est-ce qu'Unicode

Le développement du codage Unicode

Les ordinateurs sont conçus en utilisant 8 bits comme octet. Par conséquent, un octet peut représenter jusqu'à. 256 caractères. Au début, pour les pays occidentaux qui utilisaient l'anglais, un octet pouvait stocker les lettres anglaises majuscules et minuscules, les mathématiques et certains symboles, donc un octet était utilisé pour créer la table de codes (ASCII). Plus tard, les ordinateurs se sont répandus dans d'autres pays, et de nombreux pays ont utilisé leurs propres langues, comme le chinois, le japonais, le coréen... Les langues étaient compliquées. Afin de résoudre ce problème, chaque pays a formulé sa propre table de codes. formulé GB2312 en 1980 Dans le jeu de caractères de codage des caractères chinois, il y a beaucoup plus de caractères chinois que l'anglais. Un octet n'est évidemment pas suffisant, donc 2 octets sont utilisés pour le codage. Cependant, bien que les codages de caractères définis par différents pays puissent être utilisés, ils sont souvent incompatibles entre les différents pays. Si l'ordinateur souhaite gérer plusieurs environnements linguistiques (en utilisant le chinois ou d'autres langues), il ne pourra peut-être pas prendre en charge plusieurs environnements linguistiques en même temps. Afin d'unifier l'encodage de tous les textes, Unicode a été créé pour unifier toutes les langues en un seul ensemble d'encodages afin qu'il n'y ait pas de caractères tronqués.

qu'est-ce qu'Unicode

Le codage Unicode représente

Lors de la représentation de caractères Unicode, U+ est généralement utilisé suivi d'un ensemble de chiffres hexadécimaux Représente un caractère, le codage va de U+0000 à U+FFFF, prenant en charge plus de 60 000 caractères au total. Les caractères autres que BMP

doivent être représentés par un hexadécimal à 5 ​​ou 6 chiffres.

Actuellement, les caractères Unicode sont divisés en 17 groupes, de 0x0000 à 0x10FFFF. Chaque groupe est appelé un avion. Chaque avion possède 65 536 points de code, soit un total de 1114112.

Unicode est comme un tableau. Tous les caractères sont écrits dans le tableau. Chaque caractère correspond à un nombre, appelé point de code. Ce numéro n'est généralement pas utilisé directement. Il est transmis via

. Utilisez différentes méthodes d'encodage

qu'est-ce qu'Unicode

UTF-8, UTF-16 et UTF-32 sont des schémas d'encodage permettant de convertir des nombres en données de programme. UTF est l'abréviation de "UnicodeTransformation Format", qui peut être traduit en

format de conversion de jeu de caractères Unicode, c'est-à-dire comment convertir les nombres définis par Unicode en données de programme

Décimal
十进制
Unicode编码
UTF-8字节流
0-127位 0x000000-0x00007F 0xxxxxxx(7位)
128-2047位
0x000080-0x0007FF 110xxxxx 10xxxxxx(11位)
2048-65535位 0x000800-0x00FFFF 1110xxxx 10xxxxxx 10xxxxxx(16位)
65536-1114111位 0x010000-0x10FFFF
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx(21位)
Encodage Unicode Flux d'octets UTF-8
0-127 bits 0x000000-0x00007F 0xxxxxxx(7 chiffres)
128- 2047 bits 0x000080-0x0007FF 110xxxxx 10xxxxxx (11 chiffres)
2048-65535 bits 0x000800-0x00FFFF td> 1110xxxx 10xxxxxx 10xxxxxx (16 bits)
65536-1114111 bits 0x010000-0x10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx (21 bits)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn