Analisis ringkas kaedah golang untuk mengalih keluar aksara BOM dalam pengekodan UTF-8-Golang-php.cn

Rumah

pembangunan bahagian belakang

Golang

Analisis ringkas kaedah golang untuk mengalih keluar aksara BOM dalam pengekodan UTF-8

PHPz

Apr 26, 2023 am 10:32 AM

UTF-8 ialah kaedah pengekodan set aksara Unicode, yang menggunakan panjang bait berubah untuk mewakili aksara. Walau bagaimanapun, dalam pengekodan UTF-8, terdapat watak khas yang dipanggil BOM (Byte Order Mark), yang digunakan untuk mengenal pasti susunan bait teks, jadi ia juga dipanggil pengecam pesanan bait.

Dalam sesetengah senario, BOM mungkin menyebabkan beberapa masalah Contohnya, apabila menggunakan alatan tertentu untuk memproses teks, ralat mungkin berlaku disebabkan BOM. Oleh itu, artikel ini akan memperkenalkan cara menggunakan Golang untuk mengalih keluar aksara BOM dalam pengekodan UTF-8.

Peranan BOM

Dalam set aksara Unicode, terdapat berbilang kaedah pengekodan, seperti UTF-8, UTF-16, dsb. Antaranya, UTF-16 menggunakan pengekodan dua bait, dan setiap aksara menduduki 2 bait. Dalam pengekodan UTF-16, perwakilan aksara dibahagikan kepada dua bait, tertib tinggi dan tertib rendah. Walau bagaimanapun, disebabkan oleh pemproses CPU komputer yang berbeza, sesetengah pemproses CPU menyimpan data dalam cara big-endian (Big-Endian), manakala CPU lain menyimpan data dalam cara low-endian (Little-Endian).

Oleh itu, dalam pengekodan bukan UTF-8, agar penyahkod menentukan susunan bait aksara dengan betul, aksara khas, aksara BOM, perlu disisipkan pada permulaan teks. Terdapat dua bentuk aksara BOM, iaitu U+FEFF dan U+FFFE Antaranya, U+FEFF mewakili susunan bait Big-Endian, dan U+FFFE mewakili susunan bait Little-Endian. Aksara BOM sering digunakan dalam pengekodan UTF-16 dan UTF-32.

Walau bagaimanapun, dalam pengekodan UTF-8, memandangkan panjang bait setiap aksara adalah berbeza, tidak perlu menggunakan aksara BOM untuk mengenal pasti susunan bait teks seperti UTF-16 dan UTF-32. Walau bagaimanapun, untuk serasi dengan kaedah pengekodan lain, kaedah pengekodan UTF-8 juga boleh memasukkan aksara BOM pada permulaan teks untuk mengenal pasti kaedah pengekodan teks.

Cara mengalih keluar BOM

Walaupun tidak semua teks UTF-8 akan memasukkan aksara BOM, dalam beberapa kes, kita masih perlu mengalih keluar aksara BOM. Contohnya:

Anda ingin melakukan beberapa pemprosesan khusus pada teks, tetapi untuk aksara BOM, alat pemprosesan mungkin tidak dapat mengendalikannya
Anda perlu menukar teks ke dalam format lain, seperti JSON, XML, dsb., dan format ini sangat sensitif kepada aksara BOM dan akan menyebabkan ralat penghuraian.

Di Golang, anda boleh menggunakan beberapa kaedah dalam pustaka unicode/utf8 dan pustaka bait untuk mengalih keluar aksara BOM. Di bawah, kami akan memperkenalkan pelaksanaan kedua-dua kaedah ini masing-masing.

Kaedah 1: Gunakan perpustakaan unicode/utf8

Pustaka unicode/utf8 menyediakan fungsi yang dipanggil SkipBOM, yang boleh digunakan untuk melangkau aksara BOM dalam pengekodan UTF-8. Fungsi ditakrifkan seperti berikut:

func SkipBOM(p []byte) []byte

Parameter fungsi ini ialah tatasusunan bait, dan nilai pulangan juga ialah tatasusunan bait, dengan aksara BOM dialih keluar.

Berikut ialah contoh khusus:

package main

import (
    "fmt"
    "unicode/utf8"
)

func main() {
    str := "\ufeffHello World"
    b := []byte(str)

    // 去除BOM字符
    b = utf8.SkipBOM(b)
    str = string(b)

    fmt.Println(str)
}

Hasil output ialah:

Hello World

Menggunakan fungsi SkipBOM adalah sangat mudah, anda hanya perlu menukar rentetan untuk diproses Sebagai tatasusunan bait, kemudian panggil fungsi SkipBOM. Dalam contoh ini, kita mula-mula menentukan rentetan dengan aksara BOM dan kemudian menukarnya kepada tatasusunan bait. Kemudian, panggil fungsi SkipBOM untuk mengalih keluar aksara BOM, dan akhirnya menukar tatasusunan bait kepada rentetan untuk output.

Perlu diambil perhatian bahawa apabila memanggil fungsi SkipBOM, jika aksara BOM tidak wujud dalam tatasusunan bait, fungsi itu akan terus mengembalikan tatasusunan bait asal tanpa sebarang kesan.

Kaedah 2: Gunakan perpustakaan bait

Pustaka bait juga menyediakan kaedah untuk mengalih keluar aksara BOM Pelaksanaan khusus adalah seperti berikut:

func TrimBOM(s []byte) []byte {
    if len(s) >= 3 && s[0] == 0xef && s[1] == 0xbb && s[2] == 0xbf {
        return s[3:]
    }
    return s
}

Kaedah ini menerima parameter Tatasusunan bait, mengembalikan tatasusunan bait baharu dengan aksara BOM dialih keluar. Jika aksara BOM tidak wujud dalam tatasusunan bait parameter, kaedah ini akan mengembalikan tatasusunan bait asal secara langsung.

Berikut ialah contoh khusus:

package main

import (
    "bytes"
    "fmt"
)

func main() {
    str := "\ufeffHello World"
    b := []byte(str)

    // 去除BOM字符
    b = bytes.TrimPrefix(b, []byte{0xef, 0xbb, 0xbf})
    str = string(b)

    fmt.Println(str)
}

Hasil output ialah:

Hello World

Dalam contoh ini, kami menggunakan kaedah TrimPrefix dalam perpustakaan bait untuk alih keluar Aksara BOM, kaedah ini menerima dua parameter, parameter pertama ialah tatasusunan bait yang akan diproses, dan parameter kedua ialah awalan yang akan dipadamkan. Memandangkan pengekodan UTF-8 bagi aksara BOM ialah 0xefbbbf, kami mengalih keluar aksara BOM dengan menghantar []bait{0xef, 0xbb, 0xbf} sebagai parameter kedua. Akhirnya, tatasusunan bait yang diproses ditukar kepada rentetan untuk output.

Perlu diambil perhatian bahawa apabila memanggil kaedah TrimPrefix, anda perlu menggunakan aksara BOM jenis []bait sebagai parameter.

Atas ialah kandungan terperinci Analisis ringkas kaedah golang untuk mengalih keluar aksara BOM dalam pengekodan UTF-8. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Berkaitan

Golang: bahasa pengaturcaraan Go dijelaskanApr 10, 2025 am 11:18 AM

Ciri -ciri teras GO termasuk pengumpulan sampah, penyambungan statik dan sokongan konvensional. 1. Model keseragaman bahasa GO menyedari pengaturcaraan serentak yang cekap melalui goroutine dan saluran. 2. Antara muka dan polimorfisme dilaksanakan melalui kaedah antara muka, supaya jenis yang berbeza dapat diproses secara bersatu. 3. Penggunaan asas menunjukkan kecekapan definisi fungsi dan panggilan. 4. Dalam penggunaan lanjutan, kepingan memberikan fungsi saiz semula dinamik yang kuat. 5. Kesilapan umum seperti keadaan kaum dapat dikesan dan diselesaikan melalui perlumbaan getest. 6. Pengoptimuman prestasi menggunakan objek melalui sync.pool untuk mengurangkan tekanan pengumpulan sampah.

Tujuan Golang: Membina sistem yang cekap dan berskalaApr 09, 2025 pm 05:17 PM

Pergi bahasa berfungsi dengan baik dalam membina sistem yang cekap dan berskala. Kelebihannya termasuk: 1. Prestasi Tinggi: Disusun ke dalam Kod Mesin, Kelajuan Berjalan Cepat; 2. Pengaturcaraan serentak: Memudahkan multitasking melalui goroutine dan saluran; 3. Kesederhanaan: sintaks ringkas, mengurangkan kos pembelajaran dan penyelenggaraan; 4. Cross-Platform: Menyokong kompilasi silang platform, penggunaan mudah.

Kenapa keputusan pesanan oleh pernyataan dalam penyortiran SQL kadang -kadang kelihatan rawak?Apr 02, 2025 pm 05:24 PM

Keliru mengenai penyortiran hasil pertanyaan SQL. Dalam proses pembelajaran SQL, anda sering menghadapi beberapa masalah yang mengelirukan. Baru-baru ini, penulis membaca "Asas Mick-SQL" ...

Adakah Teknologi Stack Convergence hanya proses pemilihan stack teknologi?Apr 02, 2025 pm 05:21 PM

Hubungan antara konvergensi stack teknologi dan pemilihan teknologi dalam pembangunan perisian, pemilihan dan pengurusan susunan teknologi adalah isu yang sangat kritikal. Baru -baru ini, beberapa pembaca telah mencadangkan ...

Adakah penggunaan Golang Mutex yang tidak betul akan menyebabkan 'Kesalahan Fatal: Sync: Buka Kunci Mutex Unlocked' ralat? Bagaimana untuk mengelakkan masalah ini?Apr 02, 2025 pm 05:18 PM

Golang ...

Bagaimana menggunakan perbandingan refleksi dan mengendalikan perbezaan antara tiga struktur dalam GO?Apr 02, 2025 pm 05:15 PM

Bagaimana membandingkan dan mengendalikan tiga struktur dalam bahasa Go. Dalam pengaturcaraan GO, kadang -kadang perlu untuk membandingkan perbezaan antara dua struktur dan menggunakan perbezaan ini kepada ...

Bagaimana untuk melihat pakej yang dipasang di seluruh dunia?Apr 02, 2025 pm 05:12 PM

Bagaimana untuk melihat pakej yang dipasang di seluruh dunia? Dalam proses membangun dengan bahasa Go, sering menggunakan ...

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan?Apr 02, 2025 pm 05:09 PM

Apa yang perlu saya lakukan jika label struktur tersuai di Goland tidak dipaparkan? Apabila menggunakan Goland untuk Pembangunan Bahasa GO, banyak pemaju akan menghadapi tag struktur tersuai ...

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7456

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi