ホームページ >バックエンド開発 >Golang >Go で非 UTF-8 エンコードされたテキスト ファイルを読み書きするにはどうすればよいですか?

Go で非 UTF-8 エンコードされたテキスト ファイルを読み書きするにはどうすればよいですか?

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-12-04 20:40:12954ブラウズ

How to Read and Write Non-UTF-8 Encoded Text Files in Go?

Go での非 UTF-8 テキスト ファイルの読み取りと書き込み

背景

作成者デフォルトでは、Go の標準ライブラリはテキスト ファイルが UTF-8 でエンコードされていることを前提としています。ただし、GBK などの異なるエンコードでエンコードされたテキスト ファイルが発生する可能性があるシナリオもあります。

解決策

非 UTF-8 テキスト ファイルの読み取りと書き込みを行うにはGo では、次の手順を使用できます:

非 UTF-8 の読み取りファイル

  1. 必要なパッケージをインポートします: import "golang.org/x/text/encoding/simplifiedchinese"
    このパッケージは GB18030、GBK、および HZ を提供します-GB2312エンコーディング
  2. transform.NewReader を使用して io.Reader を作成します:

    f, err := os.Open(filename)
    if err != nil {
        log.Fatal(err)
    }
    r := transform.NewReader(f, simplifiedchinese.GBK.NewDecoder())

非 UTF- 8ファイル

  1. 同じパッケージをインポートします: import "golang.org/x/text/encoding/simplifiedchinese"
  2. 次を使用して io.Writer を作成します。 transform.NewWriter:

    f, err := os.Create(filename)
    if err != nil {
        log.Fatal(err)
    }
    w := transform.NewWriter(f, simplifiedchinese.GBK.NewEncoder())

次の例は、GBK でエンコードされたテキスト ファイルを読み書きする方法を示しています。 :

import (
    "bufio"
    "fmt"
    "log"
    "os"

    "golang.org/x/text/encoding/simplifiedchinese"
    "golang.org/x/text/transform"
)

func main() {
    const filename = "example_GBK_file"
    exampleWriteGBK(filename)
    exampleReadGBK(filename)
}

func exampleReadGBK(filename string) {
    f, err := os.Open(filename)
    if err != nil {
        log.Fatal(err)
    }

    r := transform.NewReader(f, simplifiedchinese.GBK.NewDecoder())

    sc := bufio.NewScanner(r)
    for sc.Scan() {
        fmt.Printf("Read line: %s\n", sc.Bytes())
    }
    if err := sc.Err(); err != nil {
        log.Fatal(err)
    }

    if err := f.Close(); err != nil {
        log.Fatal(err)
    }
}

func exampleWriteGBK(filename string) {
    f, err := os.Create(filename)
    if err != nil {
        log.Fatal(err)
    }

    w := transform.NewWriter(f, simplifiedchinese.GBK.NewEncoder())

    // Write some text from the Wikipedia GBK page that includes Chinese
    _, err = fmt.Fprintln(w,
        `In 1995, China National Information Technology Standardization
Technical Committee set down the Chinese Internal Code Specification
(Chinese: 汉字内码扩展规范(GBK); pinyin: Hànzì Nèimǎ
Kuòzhǎn Guīfàn (GBK)), Version 1.0, known as GBK 1.0, which is a
slight extension of Codepage 936. The newly added 95 characters were not
found in GB 13000.1-1993, and were provisionally assigned Unicode PUA
code points.`)
    if err != nil {
        log.Fatal(err)
    }

    if err := f.Close(); err != nil {
        log.Fatal(err)
    }
}

このコードは、GBK でエンコードされたテキスト ファイルを開きます。その内容を読み取り、別の GBK エンコードされたテキスト ファイルに書き込みます。

以上がGo で非 UTF-8 エンコードされたテキスト ファイルを読み書きするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。