Maison >développement back-end >Golang >Comment Go gère-t-il et détecte-t-il les octets non convertibles dans les chaînes ?

Comment Go gère-t-il et détecte-t-il les octets non convertibles dans les chaînes ?

Barbara Streisand
Barbara Streisandoriginal
2024-12-06 00:20:16372parcourir

How Does Go Handle and Detect Unconvertible Bytes in Strings?

Détection d'octets non convertibles dans les chaînes Go

En Go, certaines séquences d'octets ne peuvent pas être interprétées comme des caractères Unicode valides. La détection de ces séquences invalides est cruciale pour une gestion transparente des chaînes. Voici une explication détaillée :

Contrôle de validité UTF-8 :

Comme mentionné par Tim Cooper, utf8.Valid peut être utilisé pour vérifier la validité UTF-8. Cependant, il est important de noter que les chaînes Go peuvent contenir des caractères non UTF-8. En effet, une chaîne est essentiellement une tranche d'octets, et ces octets ne sont pas toujours conformes au codage UTF-8.

Comportement de décodage :

Go n'effectue que l'UTF -8 décodage dans deux cas spécifiques :

  • Itération sur une chaîne en utilisant for i, r := range s, où r représente un point de code Unicode (de type rune)
  • Conversion d'une chaîne en tranche de runes à l'aide de []rune(s)

Dans ces deux cas, caractères UTF-8 invalides sont remplacés par le point de code Unicode U FFFD, qui sert d'espace réservé pour les glyphes non pris en charge.

Exceptions à Crashing :

Notez que ces conversions ne crashent jamais. Par conséquent, la vérification explicite de la validité UTF-8 n'est nécessaire que si votre application l'exige, par exemple lors de la gestion d'entrées qui ne peuvent pas accepter U FFFD comme substitut.

Exemple :

Le code suivant montre comment Go gère l'UTF-8 non valide bytes :

package main

import "fmt"

func main() {
    a := []byte{0xff}
    s := string(a)
    fmt.Println(s)
    for _, r := range s {
        fmt.Println(r)
    }
    rs := []rune(s)
    fmt.Println(rs)
}

Sortie :

�
65533
[65533]

Comme vous pouvez le voir, la séquence d'octets invalide s'affiche sous la forme � lorsque la chaîne est imprimée dans son ensemble. Lors d'une itération, il renvoie le point de code Unicode pour U FFFD. Et lorsqu'il est converti en tranche de runes, il renvoie une seule rune représentant U FFFD.

Par conséquent, même si Go ne plante pas lors de la conversion d'octets UTF-8 non valides en chaînes, il est important d'être conscient des spécificités comportement et gérez-le en conséquence dans vos applications.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn