Maison >développement back-end >Golang >Comment puis-je détecter les séquences d'octets UTF-8 invalides dans Go ?

Comment puis-je détecter les séquences d'octets UTF-8 invalides dans Go ?

DDD
DDDoriginal
2024-12-14 22:17:11335parcourir

How Can I Detect Invalid UTF-8 Byte Sequences in Go?

Détection des séquences d'octets invalides dans Go

Dans Go, lors de la conversion d'une tranche d'octets ([]byte) en chaîne, il est possible de rencontrez des séquences d'octets invalides qui ne peuvent pas être traduites en Unicode. Cela vient du fait que toutes les séquences d'octets ne représentent pas des caractères UTF-8 valides.

Pour détecter de telles occurrences, deux approches sont disponibles :

Contrôle de validité UTF-8 :

Comme le mentionne Tim Cooper, la fonction utf8.Valid peut être utilisée pour tester si une tranche d'octets contient un UTF-8 valide. octets. Si le résultat est faux, cela indique la présence de séquences d'octets invalides.

Considérations sur la conversion de chaînes :

Contrairement aux hypothèses courantes, Go permet la conversion de fichiers non UTF. - Tranches de 8 octets en chaînes. Cependant, il est important de noter qu'une chaîne dans Go est essentiellement une tranche d'octets en lecture seule et peut donc accueillir des octets qui ne sont pas valides en UTF-8.

Ce n'est que dans des situations spécifiques que Go exécute automatiquement l'UTF-8. 8 décodage :

  • Lors d'une itération sur une chaîne en utilisant la syntaxe for i, r := range s, la variable r représente un point de code Unicode (rune) et est toujours valide.
  • Lors de la conversion d'une chaîne en une tranche de runes (c'est-à-dire, []rune(s)), Go décode la chaîne entière en runes.

Dans les deux cas , les caractères UTF-8 non valides sont remplacés par le caractère de remplacement U FFFD. Ce remplacement peut ne pas être acceptable dans toutes les applications, il est donc recommandé d'effectuer une validation UTF-8 explicite si nécessaire.

Exemple :

Considérez le programme Go suivant :

package main

import (
    "fmt"
    "unicode/utf8"
)

func main() {
    a := []byte{0xff}
    s := string(a)

    // Check UTF-8 validity
    if utf8.Valid(a) {
        fmt.Println("Valid UTF-8")
    } else {
        fmt.Println("Invalid UTF-8")
    }

    // Output string
    fmt.Println(s)
}

Sortie :

Invalid UTF-8
�

Dans cet exemple, la tranche d'octets a contient un invalide séquence d'octets, ce qui entraîne un message "UTF-8 invalide". Par la suite, lors de sa conversion en chaîne, l'octet invalide est représenté par le caractère de remplacement "�".

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn