ホームページ >バックエンド開発 >Golang >Go 文字列から無効な UTF-8 文字を削除するにはどうすればよいですか?

Go 文字列から無効な UTF-8 文字を削除するにはどうすればよいですか?

Linda Hamilton
Linda Hamiltonオリジナル
2024-12-09 21:42:11947ブラウズ

How Do I Remove Invalid UTF-8 Characters from a Go String?

Go の文字列内の無効な UTF-8 文字を削除する

UTF-8 を使用したデータのエンコード/デコードにより、さまざまなシステムおよび文字間での互換性が確保されます。セット。ただし、送信エラー、悪意のある攻撃、その他の要因により、無効な UTF-8 文字が発生する可能性があります。これらの文字を削除することは、データの整合性と適切な JSON エンコードのために不可欠です。

解決策:

Go でこの問題に対処するには、いくつかのアプローチが利用できます。

  1. 1.13 へ:

    • Go 1.13 以降のバージョンでは、strings.ToValidUTF8 関数が便利なソリューションを提供します。文字列と置換文字を引数として受け取り、無効な UTF-8 文字を指定された文字に置き換えた文字列のコピーを返します。
    • 例:

      fixedString := strings.ToValidUTF8("a\xc5z", "")
  2. 1.11 へ:

    • Go 1.11 以降のバージョンでは、strings.Map 関数を utf8.RuneError と組み合わせて使用​​して、無効な UTF-8 文字を削除できます。 strings.Map 関数は、文字列内の各文字にマッピング関数を適用します。utf8.RuneError は無効な UTF-8 ルーンを表す定数です。
    • 例:

      fixUtf := func(r rune) rune {
          if r == utf8.RuneError {
              return -1
          }
          return r
      }
      
      fixedString := strings.Map(fixUtf, "a\xc5z")

以上がGo 文字列から無効な UTF-8 文字を削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。