Rumah >pembangunan bahagian belakang >Golang >Apakah yang perlu saya lakukan jika golang membaca fail bercelaru?

Apakah yang perlu saya lakukan jika golang membaca fail bercelaru?

PHPz
PHPzasal
2023-04-25 09:11:541717semak imbas

Sebagai bahasa pembangunan, golang boleh dikatakan agak mudah dari segi membaca dan menulis fail, tetapi masih terdapat beberapa masalah yang dihadapi dalam pembangunan sebenar, seperti aksara bercelaru selepas fail dibaca. Artikel ini akan memperkenalkan sebab dan penyelesaian untuk membaca fail bercelaru dalam golang.

1. Latar belakang masalah

Apabila kita menggunakan golang untuk membaca fail, kadang-kadang kandungan selepas membaca akan bercelaru, seperti yang ditunjukkan dalam rajah di bawah:

Apakah yang perlu saya lakukan jika golang membaca fail bercelaru?

2. šŸŽœ >Format pengekodan fail merujuk kepada format pengekodan kandungan fail apabila ia disimpan, bukan sambungannya. Apabila golang membaca fail, ia membacanya dalam format pengekodan UTF-8 secara lalai Jika fail yang dibaca tidak dalam format pengekodan UTF-8, aksara bercelaru akan muncul.

Sebagai contoh, kita boleh mencipta fail teks txt melalui alat baris arahan cmd sistem Windows dan menyimpannya menggunakan format pengekodan "gbk", seperti ditunjukkan di bawah:

Kemudian, kita menggunakan program golang untuk membaca, seperti yang ditunjukkan dalam rajah di bawah:

Apakah yang perlu saya lakukan jika golang membaca fail bercelaru?

Dapat didapati bahawa kandungan fail yang dibaca adalah bercelaru Ini disebabkan oleh Format pengekodan lalai golang ialah UTF-8.

2.2. Endianness tidak dikendalikan dengan betul

Apakah yang perlu saya lakukan jika golang membaca fail bercelaru?Dalam golang, apabila membaca fail, jika format pengekodan ialah UTF-16 (termasuk UTF-16LE dan UTF-16BE), anda perlu mengendalikan endian dengan betul . UTF-16LE bermaksud bahawa dalam ingatan, bait tertib rendah disimpan di hadapan dan bait tertib tinggi disimpan di belakang, manakala UTF-16BE adalah sebaliknya.

Jika kami tidak mengendalikan susunan bait dengan betul semasa membaca fail UTF-16, aksara bercelaru akan muncul.

2.3. Isu penukaran format pengekodan lain

Apakah yang perlu saya lakukan jika golang membaca fail bercelaru?Kadangkala, kami mungkin perlu menukar fail dalam format lain (seperti CSV, XML, dll.) ke dalam format yang disokong oleh golang untuk dibaca, tetapi semasa penukaran Mungkin terdapat masalah penukaran format pengekodan yang mengakibatkan aksara bercelaru.

3. Penyelesaian

Untuk situasi di atas, kami boleh menggunakan penyelesaian berikut:

3.1 Sahkan format pengekodan fail dan bacanya

Jika kita sudah tahu format pengekodan fail, kita perlu menentukan format pengekodan yang sepadan semasa membaca fail.

golang menyediakan kaedah

pakej

, yang boleh digunakan untuk membaca fail dengan sangat mudah. Apabila menggunakan kaedah ini, anda boleh menentukan format pengekodan fail melalui kaedah seperti

dan

Kodnya adalah seperti berikut:

ioutildi mana kaedah ReadFile akan menghasilkan pengekodan baharu. format berdasarkan format pengekodan yang ditentukan bufio.NewReader objek, hanya gunakan objek ini untuk membaca fail. ioutil.NopCloser

3.2 Gunakan pustaka
funcĀ ReadFileWithCharset(filenameĀ string,Ā charsetĀ string)Ā ([]byte,Ā error)Ā {
Ā Ā Ā Ā f,Ā errĀ :=Ā os.Open(filename)
Ā Ā Ā Ā ifĀ errĀ !=Ā nilĀ {
Ā Ā Ā Ā Ā Ā Ā Ā returnĀ nil,Ā err
Ā Ā Ā Ā }
Ā Ā Ā Ā deferĀ f.Close()

Ā Ā Ā Ā r,Ā errĀ :=Ā charset.NewReader(f)
Ā Ā Ā Ā ifĀ errĀ !=Ā nilĀ {
Ā Ā Ā Ā Ā Ā Ā Ā returnĀ nil,Ā err
Ā Ā Ā Ā }
Ā Ā Ā Ā deferĀ r.Close()

Ā Ā Ā Ā returnĀ ioutil.ReadAll(r)
}
untuk penukaran pesanan bait

charset.NewReaderApabila menggunakan pustaka ReadCloser, anda perlu ambil perhatian bahawa panjang maksimum dalam pustaka ialah 32767 bait saiz melebihi had ini , maka bacaan bersegmen diperlukan.

Contoh kod: unicode/utf16

3.3. Gunakan pustaka unicode/utf16 untuk penukaran format pengekodan Pustaka

menyediakan fungsi penukaran format pengekodan yang sangat terperinci . Selesaikan kebanyakan masalah yang berkaitan dengan format pengekodan.
packageĀ main

importĀ (
Ā Ā Ā Ā "fmt"
Ā Ā Ā Ā "io/ioutil"
Ā Ā Ā Ā "unicode/utf16"
)

funcĀ readUTF16File(filenameĀ string)Ā ([]byte,Ā error)Ā {
Ā Ā Ā Ā data,Ā errĀ :=Ā ioutil.ReadFile(filename)
Ā Ā Ā Ā ifĀ errĀ !=Ā nilĀ {
Ā Ā Ā Ā Ā Ā Ā Ā returnĀ nil,Ā err
Ā Ā Ā Ā }

Ā Ā Ā Ā uĀ :=Ā utf16.Decode(data)

Ā Ā Ā Ā returnĀ []byte(string(u)),Ā nil
}

funcĀ main()Ā {
Ā Ā Ā Ā data,Ā _Ā :=Ā readUTF16File("test.txt")
Ā Ā Ā Ā fmt.Println(string(data))
}

Contoh kod: golang.org/x/text

4 Ringkasangolang.org/x/text

Masalah kod bercelaru adalah masalah yang sangat biasa dalam pembangunan, dan dalam golang, penyelesaian harus dipilih mengikut khusus. keadaan. Jika format pengekodan fail ditentukan, format pengekodan yang sepadan hendaklah dinyatakan semasa proses membaca fail jika masalah pesanan bait terlibat, anda perlu menggunakan pustaka

untuk penukaran pesanan bait untuk isu penukaran format pengekodan yang lain; Anda boleh menggunakan pustaka

untuk penukaran. Melalui kaedah di atas, masalah membaca aksara bercelaru dalam fail golang dapat diselesaikan dengan berkesan dan kecekapan pembangunan dipertingkatkan.
packageĀ main

import(
Ā Ā Ā Ā "fmt"
Ā Ā Ā Ā "io/ioutil"
Ā Ā Ā Ā "golang.org/x/text/encoding/charmap"
)

funcĀ ReadFileWithCharset(filenameĀ string,Ā charsetĀ string)Ā ([]byte,Ā error)Ā {
Ā Ā Ā Ā data,Ā errĀ :=Ā ioutil.ReadFile(filename)
Ā Ā Ā Ā ifĀ errĀ !=Ā nilĀ {
Ā Ā Ā Ā Ā Ā Ā Ā returnĀ nil,Ā err
Ā Ā Ā Ā }

Ā Ā Ā Ā charmapĀ :=Ā charmap.Windows1252.NewDecoder()

Ā Ā Ā Ā returnĀ charmap.Bytes(data)
}

funcĀ main()Ā {
Ā Ā Ā Ā data,_:=ReadFileWithCharset("test.txt","UTF-8")
Ā Ā Ā Ā fmt.Println(string(data))
}

Atas ialah kandungan terperinci Apakah yang perlu saya lakukan jika golang membaca fail bercelaru?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataanļ¼š
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn