首頁 >後端開發 >Golang >如何在 Go 中偵測無效的 UTF-8 位元組序列?

如何在 Go 中偵測無效的 UTF-8 位元組序列?

DDD
DDD原創
2024-12-14 22:17:11281瀏覽

How Can I Detect Invalid UTF-8 Byte Sequences in Go?

在Go 中偵測無效位元組序列

在Go 中,當將位元組切片([]byte) 轉換為字串時,可以遇到無法轉換為Unicode 的無效位元組序列。這是因為並非所有位元組序列都代表有效的 UTF-8 字元。

要偵測此類情況,有兩種方法可用:

UTF-8 有效性檢查:

正如Tim Cooper 所提到的, utf8.Valid 函數可用來測試位元組切片是否包含有效的UTF-8 位元組。如果結果為 false,則表示存在無效位元組序列。

字串轉換注意事項:

與常見假設相反,Go 允許非 UTF 的轉換-8 位元組切片到字串。但要注意的是,Go 中的字串本質上是唯讀位元組片,因此可以容納非有效 UTF-8 的位元組。

只有在特定情況下,Go 才會自動執行UTF- 8 解碼:

  • 使用for i, r := range s 語法迭代字串時,r 變數表示Unicode程式碼點(rune),並且始終有效。
  • 從字串轉換為符文切片(即 []rune(s))時,Go 會將整個字串解碼為符文。

在這兩種情況下,無效的 UTF-8 字元將替換為 U FFFD 替換字元。這種替換可能並非在所有應用程式中都可接受,因此建議在必要時執行明確 UTF-8 驗證。

範例:

考慮以下Go 程式:

package main

import (
    "fmt"
    "unicode/utf8"
)

func main() {
    a := []byte{0xff}
    s := string(a)

    // Check UTF-8 validity
    if utf8.Valid(a) {
        fmt.Println("Valid UTF-8")
    } else {
        fmt.Println("Invalid UTF-8")
    }

    // Output string
    fmt.Println(s)
}

輸出:

Invalid UTF-8
�

輸出:在此範例中,位元組片a 包含無效位元組序列,導致「無效UTF-8」訊息。隨後,在將其轉換為字串時,無效位元組由替換字元“�”表示。

以上是如何在 Go 中偵測無效的 UTF-8 位元組序列?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn