>백엔드 개발 >Golang >Go에서 UTF-16 텍스트 파일을 문자열로 어떻게 올바르게 읽을 수 있나요?

Go에서 UTF-16 텍스트 파일을 문자열로 어떻게 올바르게 읽을 수 있나요?

Susan Sarandon
Susan Sarandon원래의
2024-12-30 13:28:14184검색

How Can I Correctly Read a UTF-16 Text File as a String in Go?

Go에서 UTF-16 텍스트 파일을 문자열로 읽는 경우

문제 이해

UTF-16 텍스트 파일을 바이트로 읽는 경우 표준 입력 방법을 사용하여 배열을 배열하면 파일의 UTF-16 인코딩 문자가 올바르게 해석되지 않을 수 있습니다. 이로 인해 바이트가 ASCII로 처리되어 잘못된 문자열 표현이 발생할 수 있습니다.

UTF-16 디코딩을 사용한 솔루션

UTF-16 텍스트 파일을 올바르게 읽으려면 다음을 사용하는 것이 중요합니다. UTF-16 인코딩을 처리하도록 특별히 설계된 방법입니다. golang.org/x/text/encoding/unicode 패키지는 이 목적에 필요한 기능을 제공합니다.

ReadFileUTF16() 함수

func ReadFileUTF16(filename string) ([]byte, error) {
    // Read the file into a byte array
    raw, err := ioutil.ReadFile(filename)
    if err != nil {
        return nil, err
    }

    // Create a transformer that converts MS-Windows default to UTF8
    win16be := unicode.UTF16(unicode.BigEndian, unicode.IgnoreBOM)

    // Override the BOM to ensure it is respected
    utf16bom := unicode.BOMOverride(win16be.NewDecoder())

    // Apply the transformer to the input byte array
    unicodeReader := transform.NewReader(bytes.NewReader(raw), utf16bom)

    // Decode the data into a new byte array
    decoded, err := ioutil.ReadAll(unicodeReader)
    return decoded, err
}

NewScannerUTF16() 함수

전체 파일을 읽을 수 없는 시나리오의 경우 다음 함수는 동일한 UTF-16 디코딩을 사용하는 스캐너를 만듭니다. 논리:

func NewScannerUTF16(filename string) (utfScanner, error) {
    // Read the file into a []byte
    file, err := os.Open(filename)
    if err != nil {
        return nil, err
    }

    // Create a transformer that converts MS-Windows default to UTF8
    win16be := unicode.UTF16(unicode.BigEndian, unicode.IgnoreBOM)

    // Override the BOM to ensure it is respected
    utf16bom := unicode.BOMOverride(win16be.NewDecoder())

    // Apply the transformer to the input file
    unicodeReader := transform.NewReader(file, utf16bom)
    return unicodeReader, nil
}

BOM 및 유니코드 지원에 대한 논의

golang.org/x/text/encoding/unicode 패키지는 바이트 순서 표시(BOM)를 지능적으로 해석하여 사용되는 인코딩을 결정합니다. 파일. 그러나 bufio 패키지의 ReadLine 기능은 유니코드 디코딩을 지원하지 않는다는 점에 유의하는 것이 중요합니다.

추가 리소스

UTF-16 디코딩과 관련된 추가 사용자 정의 및 옵션은 오픈 소스를 참조하세요. 모듈은 https://github.com/TomOnTime/utfutil/에 있습니다.

위 내용은 Go에서 UTF-16 텍스트 파일을 문자열로 어떻게 올바르게 읽을 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.