Encodage informatique (jeu de caractères) - Comprendre
Pourquoi il existe un jeu de caractères, car les ordinateurs ne peuvent traiter que des données binaires. Pour que l'ordinateur reconnaisse le langage humain (0-9, a-z, A-Z, symboles spéciaux), nous devons « encoder » chaque caractère. Ce qu'on appelle « encodage » signifie : chaque caractère peut être représenté par un système binaire différent.
Hypothèse : A représente 1000 en binaire, B représente 1001 en binaire
Codage ASCII : 1 octet (binaire 8 bits) est utilisé pour représenter tous les caractères, un total de 2^8 = 256.
Codage ANSI : d'autres pays ont étendu le codage ASCII pour afficher leur propre langue.
ANSI signifie gb2312 sous le système d'exploitation chinois
ANSI signifie big5 sous le système d'exploitation traditionnel
ANSI sous les systèmes d'exploitation japonais, signifie JIS
...
utilisant 2 octets (binaire 16 bits) ( Pour représenter, un total de 2^16 = 65536 caractères peuvent être représentés
GB2312 contient un total de 6763 caractères chinois
encodage GBK. : Oui. Le GB2312 a été étendu pour inclure certains caractères impopulaires, des caractères rares, du chinois ancien, etc. Un total de 21 000 caractères chinois sont inclus : Plans pour coder uniformément tous les caractères du monde, en utilisant 4 octets (binaire 32 bits). pour représenter un caractère.
Ses inconvénients : Le fichier de table d'encodage est trop volumineux et peu pratique à utiliser. Utiliser du binaire 32 bits pour représenter un caractère, entraînant un grand gaspillage d'espace. -codage de langue)
Différents caractères, il choisira l'encodage approprié à traduire
"Pays" peut être représenté par 2 octets