Maison >développement back-end >Golang >Prise en charge UTF de Go : une limitation intéressante

Prise en charge UTF de Go : une limitation intéressante

Susan Sarandon
Susan Sarandonoriginal
2024-11-09 00:09:02254parcourir

Go

J'ai récemment exploré la prise en charge UTF-8 de Go et j'étais curieux de savoir dans quelle mesure il gère les scripts non latins dans le code.

Allez et UTF-8

Les fichiers sources Go sont codés en UTF-8 par défaut. Cela signifie que vous pouvez, en théorie, utiliser des caractères Unicode dans vos noms de variables, noms de fonctions et plus encore.

Par exemple, dans le code passe-partout officiel de Go Playground, vous pourriez rencontrer un code comme celui-ci :

package main

import "fmt"

func main() {
    消息 := "Hello, World!"
    fmt.Println(消息)
}

Ici, 消息 signifie « message » en chinois. Go gère cela sans aucun problème, grâce à son support Unicode. Cette fonctionnalité est l’une des raisons pour lesquelles Go a gagné en popularité dans des pays comme la Chine et le Japon : les développeurs peuvent écrire du code en utilisant des identifiants significatifs dans leur propre langue. Vous ne le croirez pas, mais il y a une énorme popularité en Chine pour écrire du code dans leur langue maternelle et j'adore ça.


Tentative d'utiliser des identifiants tamouls

Naturellement, j'ai eu envie d'essayer cela avec le tamoul, ma langue maternelle.

Voici un exemple simple que j'ai écrit :

package main

import "fmt"

func main() {
    எண்ணிக்கை := 42 // "எண்ணிக்கை" means "number"
    fmt.Println("Value:", எண்ணிக்கை)
}

À première vue, cela semble simple et peut s'exécuter sans aucune erreur.

Mais lorsque j'ai essayé de compiler le code, j'ai rencontré des erreurs

./prog.go:6:11: invalid character U+0BCD '்' in identifier
./prog.go:6:17: invalid character U+0BBF 'ி' in identifier
./prog.go:6:23: invalid character U+0BCD '்' in identifier
./prog.go:6:29: invalid character U+0BC8 'ை' in identifier
./prog.go:7:33: invalid character U+0BCD '்' in identifier
./prog.go:7:39: invalid character U+0BBF 'ி' in identifier
./prog.go:7:45: invalid character U+0BCD '்' in identifier
./prog.go:7:51: invalid character U+0BC8 'ை' in identifier

Comprendre le problème des marques combinées tamoules

Pour comprendre ce qui se passe, il est essentiel de connaître un peu le fonctionnement de l'écriture tamoule.

Le tamoul est un abugida : un système d'écriture dans lequel chaque séquence consonne-voyelle est écrite comme une unité. En Unicode, cela implique souvent de combiner un caractère consonne de base avec un ou plusieurs signes de combinaison qui représentent des voyelles ou d'autres modificateurs.

Par exemple :

  • La lettre tamoule க (U 0B95) représente la consonne "ka"

  • Pour représenter "ki", vous combineriez க avec le signe voyelle ி (U 0BBF), ce qui donne கி.

  • Le signe voyelle ி est une marque de combinaison, spécifiquement classée comme « marque sans espacement » en Unicode.

C'est ici que le problème se pose.

La spécification linguistique de Go autorise les lettres Unicode dans les identifiants mais exclut la combinaison de marques. Plus précisément, les identifiants peuvent inclure des caractères classés comme « Lettre » (catégories Lu, Ll, Lt, Lm, Lo ou Nl) et des chiffres, mais sans combinaison de marques (catégories Mn, Mc, Me).


Exemples de combinaison de marques en tamoul

Regardons comment les caractères tamouls sont formés :

  • Consonne autonome : க (U 0B95) - Autorisé dans les identifiants Go.

  • Signe de voyelle consonne : கா (U 0B95 U 0BBE) - Non autorisé car ா (U 0BBE) est une marque de combinaison (Mc).

  • Signe de voyelle consonne : கி (U 0B95 U 0BBF) - Non autorisé car ி (U 0BBF) est une marque de combinaison (Mn).

  • Signe de voyelle consonne : கூ (U 0B95 U 0BC2) - Non autorisé car ூ (U 0BC2) est une marque de combinaison (Mc).

Dans l'identifiant எண்ணிக்கை ("numéro"), les caractères comportent des signes de combinaison :

  • எ (U 0B8E) - Lettre, autorisée.

  • ண் (U 0BA3 U 0BCD) - Formé par ண (U 0BA3) et le virama ் (U 0BCD), une marque combinée (Mn).

  • ண (U 0BA3) - Lettre, autorisée.

  • ிக்கை - Contient des marques combinant telles que ி (U 0BBF) et ை (U 0BC8).

Étant donné que ces marques de combinaison ne sont pas autorisées dans les identifiants Go, le compilateur génère des erreurs lorsqu'il les rencontre.


Pourquoi les caractères chinois fonctionnent mais pas le tamoul

Les caractères chinois sont généralement classés dans la catégorie « Lettre, Autre » (Lo) en Unicode. Ce sont des symboles autonomes qui ne nécessitent pas de combinaison de marques pour former des caractères complets. C'est pourquoi les identifiants comme 消息 fonctionnent parfaitement dans Go.

Implications pratiques

L'incapacité d'utiliser des marques de combinaison dans les identifiants a des implications significatives pour les scripts comme le tamoul :

  • Expressivité limitée : Sans combiner des marques, il est presque impossible d'écrire des identifiants significatifs en tamoul.

  • Obstacles pédagogiques : L'utilisation de scripts natifs peut rendre l'apprentissage du code plus accessible, mais ces limitations entravent cette possibilité, en particulier pour les langues qui suivent le système d'écriture basé sur abugida.

  • Défis d'inclusivité : alors que Go vise l'inclusivité avec sa prise en charge UTF-8, les restrictions sur la combinaison de marques excluent de nombreuses langues qui en dépendent.

Conclusion

La prise en charge de l'UTF-8 par Go est une étape importante vers une programmation plus inclusive. Cependant, l'exclusion de la combinaison de marques dans les identifiants crée des barrières pour des langues comme le tamoul, l'hindi et l'arabe, où la combinaison de marques fait partie intégrante de l'écriture.

En tant que développeur du Tamil Nadu, travaillant principalement sur Go, cette découverte était à la fois passionnante et un peu décevante. Il met en évidence les complexités d’une véritable internationalisation dans les langages de programmation.

Qui code dans les langues maternelles pour créer des produits logiciels !?!!!!

Absolument ! Pas tellement en dehors de la région de l’Asie de l’Est, où le système d’écriture basé sur « abugida » n’est pas suivi.

Et, évidemment, les créateurs de Go n’auraient pas prévu en premier lieu la conformité UTF-8 pour le « codage en langue maternelle ». La raison était davantage d'offrir un meilleur traitement ASCII, un alignement sur les normes Web modernes, une gestion cohérente des chaînes et une étape vers l'interopérabilité.

Cette tentative était juste ma curiosité de comprendre jusqu'où nous pouvons pousser la conformité UTF-8 dans Go. En tant que personne travaillant à la création de systèmes fintech distribués et évolutifs dans Go, j'ai trouvé essentiel d'être conscient de ces nuances.


C'est à peu près tout. Merci d'avoir lu.

Bon codage :) Que le code soit avec vous.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn