如何在 Go 中偵測無效的 UTF-8 位元組序列？-Golang-PHP中文網

首頁

後端開發

Golang

如何在 Go 中偵測無效的 UTF-8 位元組序列？

DDD

Dec 14, 2024 pm 10:17 PM

How Can I Detect Invalid UTF-8 Byte Sequences in Go?

在Go 中偵測無效位元組序列

在Go 中，當將位元組切片([]byte) 轉換為字串時，可以遇到無法轉換為Unicode 的無效位元組序列。這是因為並非所有位元組序列都代表有效的 UTF-8 字元。

要偵測此類情況，有兩種方法可用：

UTF-8 有效性檢查：

正如Tim Cooper 所提到的， utf8.Valid 函數可用來測試位元組切片是否包含有效的UTF-8 位元組。如果結果為 false，則表示存在無效位元組序列。

字串轉換注意事項：

與常見假設相反，Go 允許非 UTF 的轉換-8 位元組切片到字串。但要注意的是，Go 中的字串本質上是唯讀位元組片，因此可以容納非有效 UTF-8 的位元組。

只有在特定情況下，Go 才會自動執行UTF- 8 解碼：

使用for i, r := range s 語法迭代字串時，r 變數表示Unicode程式碼點（rune），並且始終有效。
從字串轉換為符文切片（即 []rune(s)）時，Go 會將整個字串解碼為符文。

在這兩種情況下，無效的 UTF-8 字元將替換為 U FFFD 替換字元。這種替換可能並非在所有應用程式中都可接受，因此建議在必要時執行明確 UTF-8 驗證。

範例：

考慮以下Go 程式：

package main

import (
    "fmt"
    "unicode/utf8"
)

func main() {
    a := []byte{0xff}
    s := string(a)

    // Check UTF-8 validity
    if utf8.Valid(a) {
        fmt.Println("Valid UTF-8")
    } else {
        fmt.Println("Invalid UTF-8")
    }

    // Output string
    fmt.Println(s)
}

輸出：

Invalid UTF-8
�

輸出：在此範例中，位元組片a 包含無效位元組序列，導致「無效UTF-8」訊息。隨後，在將其轉換為字串時，無效位元組由替換字元“�”表示。

以上是如何在 Go 中偵測無效的 UTF-8 位元組序列？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

學習GO String操縱：使用'字符串”軟件包May 09, 2025 am 12:07 AM

Go的"strings"包提供了豐富的功能，使字符串操作高效且簡單。 1)使用strings.Contains()檢查子串。 2)strings.Split()可用於解析數據，但需謹慎使用以避免性能問題。 3)strings.Join()適用於格式化字符串，但對小數據集，循環使用 =更有效。 4)對於大字符串，使用strings.Builder構建字符串更高效。

GO：使用標準'字符串”包的字符串操縱May 09, 2025 am 12:07 AM

Go語言使用"strings"包進行字符串操作。 1)拼接字符串使用strings.Join函數。 2)查找子串使用strings.Contains函數。 3)替換字符串使用strings.Replace函數，這些函數高效且易用，適用於各種字符串處理任務。

使用GO的'字節”軟件包掌握字節切片操作：實用指南May 09, 2025 am 12:02 AM

資助bytespackageingoisesential foreffited byteSemanipulation，uperingFunctionsLikeContains，index，andReplaceForsearchingangingAndModifyingBinaryData.itenHancesperformanceNandCoderAceAnibility，MakeitiTavitalToolToolToolToolToolToolToolToolToolForhandLingBinaryData，networkProtocols，networkProtocoLss，networkProtocols，andetFilei

學習GO二進制編碼/解碼：使用'編碼/二進制”軟件包May 08, 2025 am 12:13 AM

Go語言使用"encoding/binary"包進行二進制編碼與解碼。 1)該包提供binary.Write和binary.Read函數，用於數據的寫入和讀取。 2)需要注意選擇正確的字節序（如BigEndian或LittleEndian）。 3)數據對齊和錯誤處理也是關鍵，確保數據的正確性和性能。

GO：帶有標準'字節”軟件包的字節切片操作May 08, 2025 am 12:09 AM

1）usebybytes.joinforconcatenatinges，2）bytes.bufferforincrementalwriting，3）bytes.indexorbytes.indexorbytes.indexbyteforsearching bytes.bytes.readereforrednorederencretingnchunknunknchunknunk.sss.inc.softes.4）

進行編碼/二進制包：優化二進制操作的性能May 08, 2025 am 12:06 AM

theencoding/binarypackageingoiseforporptimizingBinaryBinaryOperationsDuetoitssupportforendiannessessandefficityDatahandling.toenhancePerformance：1）usebinary.nativeendiandiandiandiandiandiandiandian nessideendian toavoid avoidByteByteswapping.2）

Go Bytes軟件包：簡短的參考和提示May 08, 2025 am 12:05 AM

Go的bytes包主要用於高效處理字節切片。 1)使用bytes.Buffer可以高效進行字符串拼接，避免不必要的內存分配。 2)bytes.Equal函數用於快速比較字節切片。 3)bytes.Index、bytes.Split和bytes.ReplaceAll函數可用於搜索和操作字節切片，但需注意性能問題。

Go Bytes軟件包：字節切片操縱的實例May 08, 2025 am 12:01 AM

字節包提供了多種功能來高效處理字節切片。 1)使用bytes.Contains檢查字節序列。 2)用bytes.Split分割字節切片。 3)通過bytes.Replace替換字節序列。 4)用bytes.Join連接多個字節切片。 5)利用bytes.Buffer構建數據。 6)結合bytes.Map進行錯誤處理和數據驗證。

See all articles