Rumah >pembangunan bahagian belakang >Golang >Bagaimanakah Saya Boleh Mengesan Urutan UTF-8 Byte Tidak Sah dalam Go?

Bagaimanakah Saya Boleh Mengesan Urutan UTF-8 Byte Tidak Sah dalam Go?

DDD
DDDasal
2024-12-14 22:17:11335semak imbas

How Can I Detect Invalid UTF-8 Byte Sequences in Go?

Mengesan Urutan Bait Tidak Sah dalam Go

Dalam Go, apabila menukar kepingan bait ([]bait) kepada rentetan, adalah mungkin untuk menemui urutan bait yang tidak sah yang tidak boleh diterjemahkan ke dalam Unicode. Ini timbul daripada fakta bahawa bukan semua jujukan bait mewakili aksara UTF-8 yang sah.

Untuk mengesan kejadian sedemikian, dua pendekatan tersedia:

Semakan Kesahan UTF-8:

Seperti yang disebut oleh Tim Cooper, fungsi utf8.Valid boleh digunakan untuk menguji sama ada kepingan bait mengandungi UTF-8 bait yang sah. Jika hasilnya palsu, ini menunjukkan kehadiran jujukan bait yang tidak sah.

Pertimbangan Penukaran Rentetan:

Bertentangan dengan andaian biasa, Go membenarkan penukaran bukan UTF -8 bait hirisan kepada rentetan. Walau bagaimanapun, adalah penting untuk ambil perhatian bahawa rentetan dalam Go pada asasnya ialah hirisan bait baca sahaja dan oleh itu boleh menampung bait yang tidak sah UTF-8.

Hanya dalam situasi tertentu Go secara automatik melaksanakan UTF- 8 penyahkodan:

  • Apabila melelaran pada rentetan menggunakan sintaks for i, r := range s, pembolehubah r mewakili a Titik kod Unicode (rune) dan sentiasa sah.
  • Apabila menukar daripada rentetan kepada hirisan rune (iaitu, []rune(s)), Go menyahkod keseluruhan rentetan kepada rune.

Dalam kedua-dua kes, aksara UTF-8 yang tidak sah digantikan dengan aksara gantian U FFFD. Penggantian ini mungkin tidak boleh diterima dalam semua aplikasi, jadi disyorkan untuk melakukan pengesahan UTF-8 yang jelas jika perlu.

Contoh:

Pertimbangkan program Go berikut:

package main

import (
    "fmt"
    "unicode/utf8"
)

func main() {
    a := []byte{0xff}
    s := string(a)

    // Check UTF-8 validity
    if utf8.Valid(a) {
        fmt.Println("Valid UTF-8")
    } else {
        fmt.Println("Invalid UTF-8")
    }

    // Output string
    fmt.Println(s)
}

Output:

Invalid UTF-8
�

Dalam contoh ini, hirisan bait a mengandungi jujukan bait yang tidak sah, menghasilkan mesej "UTF-8 tidak sah". Selepas itu, apabila menukarnya kepada rentetan, bait yang tidak sah diwakili oleh aksara gantian "�".

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengesan Urutan UTF-8 Byte Tidak Sah dalam Go?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn