Go での非 UTF-8 テキスト ファイルの読み取り
Go で非 UTF-8 テキスト ファイルの読み取りと書き込みは困難な場合があります。標準ライブラリは UTF-8 エンコーディングを前提としています。この記事では、この問題に対処し、Go のサブリポジトリを使用した包括的な解決策を提供します。
問題:
非 UTF-8 形式でエンコードされたテキスト ファイルを読み取るにはどうすればよいですか? GBKなど、
解決策:
非 UTF-8 エンコーディングでファイルを読み取るには、 golang.org/x/text/encoding パッケージを利用します。このパッケージは、UTF-8 との間の変換を容易にする汎用文字エンコーディングのインターフェイスを定義します。
特に、GBK エンコーディングの場合、golang.org/x/text/encoding/simplifiedchinese サブパッケージを使用します。 GB18030、GBK、および HZ-GB2312 エンコード実装を提供します。これらの実装は、encoding.Encoding インターフェイスを実装します。
実装:
GBK でエンコードされたオブジェクトの読み取りと書き込みを示す例を次に示します。ファイル:
package main import ( "bufio" "fmt" "log" "os" "golang.org/x/text/encoding/simplifiedchinese" "golang.org/x/text/transform" ) var enc = simplifiedchinese.GBK func main() { // Example filename const filename = "example_GBK_file" exampleWriteGBK(filename) exampleReadGBK(filename) } func exampleReadGBK(filename string) { f, err := os.Open(filename) if err != nil { log.Fatal(err) } // Convert GBK to UTF-8 on the fly r := transform.NewReader(f, enc.NewDecoder()) sc := bufio.NewScanner(r) for sc.Scan() { fmt.Printf("Read line: %s\n", sc.Bytes()) } if err := sc.Err(); err != nil { log.Fatal(err) } } func exampleWriteGBK(filename string) { f, err := os.Create(filename) if err != nil { log.Fatal(err) } w := transform.NewWriter(f, enc.NewEncoder()) // Example text with Chinese characters _, err = fmt.Fprintln(w, `In 1995, China National Information Technology Standardization Technical Committee set down the Chinese Internal Code Specification (Chinese: 汉字内码扩展规范(GBK); pinyin: Hànzì Nèimǎ Kuòzhǎn Guīfàn (GBK)), Version 1.0, known as GBK 1.0, which is a slight extension of Codepage 936. The newly added 95 characters were not found in GB 13000.1-1993, and were provisionally assigned Unicode PUA code points.`) if err != nil { log.Fatal(err) } }
プレイグラウンド:
https://go.dev/play/p/fFIy9VES6cL
以上がGo で非 UTF-8 エンコードされたテキスト ファイル (GBK など) を読み取る方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。