ホームページ >バックエンド開発 >Golang >Golang で中国語テキストを処理する方法

Golang で中国語テキストを処理する方法

PHPz
PHPzオリジナル
2023-04-23 09:19:191204ブラウズ

GO 言語 (Golang) は、Google によって開発されたオープンソース プログラミング言語で、効率性、シンプルさ、セキュリティの利点があり、徐々に業界で人気のある言語の 1 つになりました。 Golang を使用した開発プロセスにおいて、中国語テキストの処理は非常に重要な部分です。

この記事では、Golang で中国語テキストを処理する方法を紹介します。

中国語の文字セット

中国語テキストの処理を開始する前に、中国語の文字セットを理解する必要があります。中国語の文字セットには、漢字、句読点、数字、文字などのさまざまな記号が含まれており、コンピュータではこれらの記号はバイト単位で格納されます。 Golang では、中国語の文字セットを表すために UTF-8 エンコーディングを使用します。

UTF-8 は、1 ~ 4 バイトで文字を表現できる拡張可能なエンコード方式で、そのうち中国語の文字は 3 バイトで表現されます。このエンコード方法により、中国語の文字セットを効率的に保存および送信できます。

中国語テキスト処理

Golang では、文字列を通じてテキストを表現できます。中国語のテキストの場合は、文字列に対して追加の処理を行う必要があります。

  1. 文字列の長さ

Golang では、len() 関数を使用して文字列の長さを取得できます。ただし、中国語の文字列の場合、len() 関数は中国語の文字数ではなくバイト数を返します。したがって、中国語の文字列を処理する場合は、unicode/utf8 パッケージの RuneCountInString() 関数を使用して中国語の文字数を取得する必要があります。例は次のとおりです。

package main

import (
    "fmt"
    "unicode/utf8"
)

func main() {
    str := "你好,世界!"
    fmt.Println(len(str))                   // 输出 15
    fmt.Println(utf8.RuneCountInString(str)) // 输出 7
}
  1. 文字列の分割

中国語の文字列を処理する場合、中国語の文字または中国語の語彙に従って分割する必要がある場合があります。 strings パッケージの Split() 関数を使用すると、指定された区切り文字に従って分割できます。例は次のとおりです:

package main

import (
    "fmt"
    "strings"
)

func main() {
    str := "我是中国人,我爱我的祖国。"
    chars := strings.Split(str, "")
    words := strings.Split(str, ",")
    fmt.Println(chars) // 输出 [我 是 中 国 人 , 我 爱 我 的 祖 国 。]
    fmt.Println(words) // 输出 [我是中国人 我爱我的祖国。]
}
  1. 文字列置換

中国語を処理する場合string の場合、その中の一部の文字または文字列を置き換える必要がある場合があります。文字列パッケージの Replace() 関数を使用して置き換えることができます。例は次のとおりです:

package main

import (
    "fmt"
    "strings"
)

func main() {
    str := "我是中国人,我爱我的祖国。"
    newStr := strings.Replace(str, "我", "他", -1)
    fmt.Println(newStr) // 输出 他是中国人,他爱他的祖国。
}
  1. 文字列一致

中国語の文字列を処理する場合、必要な場合があります。検索対象に含まれる文字または文字列。 strings パッケージの Contains() 関数と Index() 関数を使用して検索できます。例は次のとおりです:

package main

import (
    "fmt"
    "strings"
)

func main() {
    str := "我是中国人,我爱我的祖国。"
    if strings.Contains(str, "中国") {
        fmt.Println("包含中国")
    }

    index := strings.Index(str, "中国")
    fmt.Println(index) // 输出 3
}

Sort of Chinese text

Golang では、次のようにする必要があります。パッケージを照合します。 Collat​​e パッケージは、中国語テキストの並べ替えを正しく処理できる Unicode コンテキスト認識文字列比較関数を提供します。

例は次のとおりです:

package main

import (
    "fmt"
    "sort"
    "unicode/utf8"

    "golang.org/x/text/collate"
    "golang.org/x/text/language"
)

func main() {
    names := []string{"张三", "李四", "王五", "赵六", "钱七"}

    // 创建中文语言环境
    china := language.Chinese

    // 创建排序规则
    collator := collate.New(china)

    // 对姓名进行排序
    sort.Slice(names, func(i, j int) bool {
        return collator.CompareString(names[i], names[j]) < 0
    })

    // 输出排序结果
    fmt.Println(names) // 输出 [张三 李四 钱七 赵六 王五]
}

概要

この記事では、文字セット、文字列処理、中国語テキストの並べ替え、など。この知識を習得すると、中国語のテキストをより適切に処理し、開発効率を向上させることができます。

以上がGolang で中国語テキストを処理する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。