Maison >développement back-end >Golang >Prise en charge UTF de Go : une limitation intéressante
J'ai récemment exploré la prise en charge UTF-8 de Go et j'étais curieux de savoir dans quelle mesure il gère les scripts non latins dans le code.
Allez et UTF-8
Les fichiers sources Go sont codés en UTF-8 par défaut. Cela signifie que vous pouvez, en théorie, utiliser des caractères Unicode dans vos noms de variables, noms de fonctions et plus encore.
Par exemple, dans le code passe-partout officiel de Go Playground, vous pourriez rencontrer un code comme celui-ci :
package main import "fmt" func main() { 消息 := "Hello, World!" fmt.Println(消息) }
Ici, 消息 signifie « message » en chinois. Go gère cela sans aucun problème, grâce à son support Unicode. Cette fonctionnalité est l’une des raisons pour lesquelles Go a gagné en popularité dans des pays comme la Chine et le Japon : les développeurs peuvent écrire du code en utilisant des identifiants significatifs dans leur propre langue. Vous ne le croirez pas, mais il y a une énorme popularité en Chine pour écrire du code dans leur langue maternelle et j'adore ça.
Tentative d'utiliser des identifiants tamouls
Naturellement, j'ai eu envie d'essayer cela avec le tamoul, ma langue maternelle.
Voici un exemple simple que j'ai écrit :
package main import "fmt" func main() { எண்ணிக்கை := 42 // "எண்ணிக்கை" means "number" fmt.Println("Value:", எண்ணிக்கை) }
À première vue, cela semble simple et peut s'exécuter sans aucune erreur.
Mais lorsque j'ai essayé de compiler le code, j'ai rencontré des erreurs
./prog.go:6:11: invalid character U+0BCD '்' in identifier ./prog.go:6:17: invalid character U+0BBF 'ி' in identifier ./prog.go:6:23: invalid character U+0BCD '்' in identifier ./prog.go:6:29: invalid character U+0BC8 'ை' in identifier ./prog.go:7:33: invalid character U+0BCD '்' in identifier ./prog.go:7:39: invalid character U+0BBF 'ி' in identifier ./prog.go:7:45: invalid character U+0BCD '்' in identifier ./prog.go:7:51: invalid character U+0BC8 'ை' in identifier
Comprendre le problème des marques combinées tamoules
Pour comprendre ce qui se passe, il est essentiel de connaître un peu le fonctionnement de l'écriture tamoule.
Le tamoul est un abugida : un système d'écriture dans lequel chaque séquence consonne-voyelle est écrite comme une unité. En Unicode, cela implique souvent de combiner un caractère consonne de base avec un ou plusieurs signes de combinaison qui représentent des voyelles ou d'autres modificateurs.
Par exemple :
La lettre tamoule க (U 0B95) représente la consonne "ka"
Pour représenter "ki", vous combineriez க avec le signe voyelle ி (U 0BBF), ce qui donne கி.
Le signe voyelle ி est une marque de combinaison, spécifiquement classée comme « marque sans espacement » en Unicode.
C'est ici que le problème se pose.
La spécification linguistique de Go autorise les lettres Unicode dans les identifiants mais exclut la combinaison de marques. Plus précisément, les identifiants peuvent inclure des caractères classés comme « Lettre » (catégories Lu, Ll, Lt, Lm, Lo ou Nl) et des chiffres, mais sans combinaison de marques (catégories Mn, Mc, Me).
Exemples de combinaison de marques en tamoul
Regardons comment les caractères tamouls sont formés :
Consonne autonome : க (U 0B95) - Autorisé dans les identifiants Go.
Signe de voyelle consonne : கா (U 0B95 U 0BBE) - Non autorisé car ா (U 0BBE) est une marque de combinaison (Mc).
Signe de voyelle consonne : கி (U 0B95 U 0BBF) - Non autorisé car ி (U 0BBF) est une marque de combinaison (Mn).
Signe de voyelle consonne : கூ (U 0B95 U 0BC2) - Non autorisé car ூ (U 0BC2) est une marque de combinaison (Mc).
Dans l'identifiant எண்ணிக்கை ("numéro"), les caractères comportent des signes de combinaison :
எ (U 0B8E) - Lettre, autorisée.
ண் (U 0BA3 U 0BCD) - Formé par ண (U 0BA3) et le virama ் (U 0BCD), une marque combinée (Mn).
ண (U 0BA3) - Lettre, autorisée.
ிக்கை - Contient des marques combinant telles que ி (U 0BBF) et ை (U 0BC8).
Étant donné que ces marques de combinaison ne sont pas autorisées dans les identifiants Go, le compilateur génère des erreurs lorsqu'il les rencontre.
Pourquoi les caractères chinois fonctionnent mais pas le tamoul
Les caractères chinois sont généralement classés dans la catégorie « Lettre, Autre » (Lo) en Unicode. Ce sont des symboles autonomes qui ne nécessitent pas de combinaison de marques pour former des caractères complets. C'est pourquoi les identifiants comme 消息 fonctionnent parfaitement dans Go.
Implications pratiques
L'incapacité d'utiliser des marques de combinaison dans les identifiants a des implications significatives pour les scripts comme le tamoul :
Expressivité limitée : Sans combiner des marques, il est presque impossible d'écrire des identifiants significatifs en tamoul.
Obstacles pédagogiques : L'utilisation de scripts natifs peut rendre l'apprentissage du code plus accessible, mais ces limitations entravent cette possibilité, en particulier pour les langues qui suivent le système d'écriture basé sur abugida.
Défis d'inclusivité : alors que Go vise l'inclusivité avec sa prise en charge UTF-8, les restrictions sur la combinaison de marques excluent de nombreuses langues qui en dépendent.
La prise en charge de l'UTF-8 par Go est une étape importante vers une programmation plus inclusive. Cependant, l'exclusion de la combinaison de marques dans les identifiants crée des barrières pour des langues comme le tamoul, l'hindi et l'arabe, où la combinaison de marques fait partie intégrante de l'écriture.
En tant que développeur du Tamil Nadu, travaillant principalement sur Go, cette découverte était à la fois passionnante et un peu décevante. Il met en évidence les complexités d’une véritable internationalisation dans les langages de programmation.
Absolument ! Pas tellement en dehors de la région de l’Asie de l’Est, où le système d’écriture basé sur « abugida » n’est pas suivi.
Et, évidemment, les créateurs de Go n’auraient pas prévu en premier lieu la conformité UTF-8 pour le « codage en langue maternelle ». La raison était davantage d'offrir un meilleur traitement ASCII, un alignement sur les normes Web modernes, une gestion cohérente des chaînes et une étape vers l'interopérabilité.
Cette tentative était juste ma curiosité de comprendre jusqu'où nous pouvons pousser la conformité UTF-8 dans Go. En tant que personne travaillant à la création de systèmes fintech distribués et évolutifs dans Go, j'ai trouvé essentiel d'être conscient de ces nuances.
C'est à peu près tout. Merci d'avoir lu.
Bon codage :) Que le code soit avec vous.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!