首页 >后端开发 >Golang >如何在Go中读写非UTF-8编码的文本文件?

如何在Go中读写非UTF-8编码的文本文件?

Mary-Kate Olsen
Mary-Kate Olsen原创
2024-12-04 20:40:12991浏览

How to Read and Write Non-UTF-8 Encoded Text Files in Go?

在 Go 中读写非 UTF-8 文本文件

背景

作者默认情况下,Go 中的标准库假定文本文件采用 UTF-8 编码。但是,在某些情况下,您可能会遇到以不同编码编码的文本文件,例如 GBK。

解决方案

读写非 UTF-8 文本文件在 Go 中,您可以使用以下步骤:

读取非 UTF-8文件

  1. 导入必要的包: import "golang.org/x/text/encoding/simplifiedchinese"
    此包提供GB18030、GBK、HZ -GB2312编码
  2. 使用transform.NewReader创建一个io.Reader:

    f, err := os.Open(filename)
    if err != nil {
        log.Fatal(err)
    }
    r := transform.NewReader(f, simplifiedchinese.GBK.NewDecoder())

写入非UTF- 8文件

  1. 导入同一个包: import "golang.org/x/text/encoding/simplifiedchinese"
  2. 使用创建 io.Writer transform.NewWriter:

    f, err := os.Create(filename)
    if err != nil {
        log.Fatal(err)
    }
    w := transform.NewWriter(f, simplifiedchinese.GBK.NewEncoder())

示例

以下示例演示如何读写 GBK 编码的文本文件:

import (
    "bufio"
    "fmt"
    "log"
    "os"

    "golang.org/x/text/encoding/simplifiedchinese"
    "golang.org/x/text/transform"
)

func main() {
    const filename = "example_GBK_file"
    exampleWriteGBK(filename)
    exampleReadGBK(filename)
}

func exampleReadGBK(filename string) {
    f, err := os.Open(filename)
    if err != nil {
        log.Fatal(err)
    }

    r := transform.NewReader(f, simplifiedchinese.GBK.NewDecoder())

    sc := bufio.NewScanner(r)
    for sc.Scan() {
        fmt.Printf("Read line: %s\n", sc.Bytes())
    }
    if err := sc.Err(); err != nil {
        log.Fatal(err)
    }

    if err := f.Close(); err != nil {
        log.Fatal(err)
    }
}

func exampleWriteGBK(filename string) {
    f, err := os.Create(filename)
    if err != nil {
        log.Fatal(err)
    }

    w := transform.NewWriter(f, simplifiedchinese.GBK.NewEncoder())

    // Write some text from the Wikipedia GBK page that includes Chinese
    _, err = fmt.Fprintln(w,
        `In 1995, China National Information Technology Standardization
Technical Committee set down the Chinese Internal Code Specification
(Chinese: 汉字内码扩展规范(GBK); pinyin: Hànzì Nèimǎ
Kuòzhǎn Guīfàn (GBK)), Version 1.0, known as GBK 1.0, which is a
slight extension of Codepage 936. The newly added 95 characters were not
found in GB 13000.1-1993, and were provisionally assigned Unicode PUA
code points.`)
    if err != nil {
        log.Fatal(err)
    }

    if err := f.Close(); err != nil {
        log.Fatal(err)
    }
}

此代码打开 GBK 编码的文本文件,读取其内容,并将其写入另一个 GBK 编码的文本文件。

以上是如何在Go中读写非UTF-8编码的文本文件?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn