>백엔드 개발 >Golang >Go의 문자열에서 잘못된 UTF-8 문자를 제거하는 방법은 무엇입니까?

Go의 문자열에서 잘못된 UTF-8 문자를 제거하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-12-16 21:02:11531검색

How to Remove Invalid UTF-8 Characters from Strings in Go?

Go의 문자열에서 잘못된 UTF-8 문자 제거

json.Marshal을 사용하여 문자열 목록을 마샬링하려고 할 때 다음이 가능합니다. 잘못된 UTF-8 문자가 있음을 나타내는 오류가 발생합니다. 이 문서에서는 이 문제를 다루고 Go에서 이러한 문자를 제거하거나 바꾸는 솔루션을 제공합니다.

Python에서 유니코드 모듈은 유효하지 않은 문자를 처리하기 위해 unicode.replace 및 unicode.strict와 같은 메서드를 제공합니다. 그러나 Go에는 직접적으로 동등한 기능이 없습니다. 대신 다른 접근 방식을 사용합니다.

Go 1.13에서 strings.ToValidUTF8 사용

문자열에서 잘못된 UTF-8 문자를 제거하려면 다음 문자열을 사용할 수 있습니다. .ToValidUTF8 기능은 Go 1.13에 도입되었습니다. 입력 문자열과 유효하지 않은 바이트에 사용할 대체 문자라는 두 가지 매개변수를 사용합니다. 대체 문자가 빈 문자열인 경우 유효하지 않은 바이트는 자동으로 제거됩니다.

invalidString := "a\xc5z"
validString := strings.ToValidUTF8(invalidString, "")
// validString will now be "az"

Go 1.11에서 strings.Map 및 utf8.RuneError 사용

대안 해결책은 utf8.RuneError와 함께 strings.Map을 사용하는 것입니다. strings.Map은 문자열의 각 룬에 함수를 적용하는 반면, utf8.RuneError는 잘못된 UTF-8 문자를 나타냅니다. 예는 다음과 같습니다.

invalidString := "a\xc5z"

fixUtf := func(r rune) rune {
    if r == utf8.RuneError {
        return -1 // Replace invalid characters with -1
    }
    return r
}

validString := strings.Map(fixUtf, invalidString)
fmt.Println(validString) // Output: "az"

위 내용은 Go의 문자열에서 잘못된 UTF-8 문자를 제거하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.