Maison >Problème commun >Combien d'octets les caractères chinois occupent-ils dans l'encodage UTF8 ?
Dans l'encodage UTF-8, un caractère chinois équivaut à trois octets, et un signe de ponctuation chinois occupe trois octets ; un caractère anglais équivaut à un octet et un signe de ponctuation anglais occupe un octet ; Le symbole est égal à un octet.
L'environnement d'exploitation de cet article : système Windows 10, ordinateur DELL G3.
En encodage UTF-8 : un caractère chinois équivaut à trois octets, et la ponctuation chinoise occupe trois octets.
Un caractère anglais équivaut à un octet et la ponctuation anglaise occupe un octet.
Encodage Unicode : un mot anglais équivaut à deux octets et un caractère chinois (y compris le chinois traditionnel) équivaut à deux octets. La ponctuation chinoise occupe deux octets et la ponctuation anglaise occupe deux octets.
Informations étendues :
UTF-8 utilise 1 à 4 octets pour coder chaque caractère :
1 un caractère US-ASCIl n'en nécessite que 1. codage d'octets (la plage Unicode est U+0000~U+007F).
2. Les lettres latines, grecques, cyrilliques, arméniennes, hébraïques, arabes, syriaques et autres lettres avec des signes diacritiques nécessitent un codage sur 2 octets (la plage Unicode est U +0080~U+07FF).
3. Les caractères dans d'autres langues (y compris les caractères chinois, japonais et coréens, les caractères d'Asie du Sud-Est, les caractères du Moyen-Orient, etc.) incluent les caractères les plus couramment utilisés et utilisent un codage sur 3 octets.
4. D'autres caractères de langue rarement utilisés utilisent un codage sur 4 octets.
Pour plus de connaissances liées à l'informatique, veuillez visiter la rubrique FAQ !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!