ホームページ >バックエンド開発 >Golang >Go の文字列から発音記号を削除するにはどうすればよいですか?

Go の文字列から発音記号を削除するにはどうすればよいですか?

Linda Hamilton
Linda Hamiltonオリジナル
2024-12-08 11:53:14253ブラウズ

How Can I Remove Diacritics from Strings in Go?

Go で発音記号を削除する

UTF-8 でエンコードされた文字列から発音記号 (アクセント記号) を削除することは、一般的なテキスト処理タスクです。 Go は、テキスト正規化ユーティリティの一部として、この目的のためにいくつかのライブラリを提供しています。

1 つのアプローチには、以下に示すように、複数のライブラリを組み合わせることが含まれます。

package main

import (
    "fmt"
    "unicode"

    "golang.org/x/text/transform"
    "golang.org/x/text/unicode/norm"
)

// isMn determines if a rune represents a nonspacing mark (diacritic).
func isMn(r rune) bool {
    return unicode.Is(unicode.Mn, r)
}

func main() {
    // Create a transformation chain to:
    // - Decompose the string into its unicode normalization form (NFD).
    // - Remove all nonspacing marks (diacritics).
    // - Recompose the string into its normalized form (NFC).
    t := transform.Chain(norm.NFD, transform.RemoveFunc(isMn), norm.NFC)

    // Apply the transformation to the input string "žůžo".
    result, _, _ := transform.String(t, "žůžo")

    // Print the resulting string, which is "zuzo" without diacritics.
    fmt.Println(result)
}

以上がGo の文字列から発音記号を削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。