首頁 >後端開發 >php教程 >如何在 PHP 中使用正規表示式來匹配中文字符

如何在 PHP 中使用正規表示式來匹配中文字符

王林
王林原創
2023-06-22 09:16:393695瀏覽

在 PHP 中,正規表示式是常用的字串比對工具,它可以用來判斷一個字串是否符合某種特定的格式,從而實現輸入值的有效性驗證。而在處理中文字元時,由於中文字元與英文字元在編碼方式上有所不同,因此需要相應地調整正規表示式的符合規則。本文將介紹如何在 PHP 中使用正規表示式來符合中文字元。

一、了解中文字元編碼

PHP 中常用的字元編碼有 UTF-8 和 GBK 兩種。 UTF-8 是一種“可變長度編碼”,即不同的字元長度不同,以 1 到 4 個位元組表示不同的字元。而 GBK 則是一種“定長編碼”,其中每個字元以兩個位元組表示。

由於 UTF-8 編碼規則比較複雜,因此在符合中文字元時,我們可以採用 GBK 編碼來進行比對。在PHP 中,可以透過mb_convert_encoding() 函數將字串從UTF-8 轉換成GBK 編碼,例如:

$str = "中文";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");

二、匹配中文字元

  1. #匹配單一中文字元

要符合單一中文字符,可以使用[x{4e00}-x{9fa5}] 的正規表示式。其中 x 表示十六進位字符,{4e00} 和 {9fa5} 分別表示中文字符集中的第一個和最後一個字符,即 “一” 和 “龥”。

程式碼範例:

$str = "中文";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match("/[x{4e00}-x{9fa5}]/u", $str_gbk, $match);
echo $match[0];

輸出結果為:

  1. #匹配多個中文字元

要符合多個中文字符,可以在正規表示式中添加量詞,例如* 表示匹配任意個數的中文字符, 表示匹配至少一個中文字符,{n,m} 表示匹配n 到m 個中文字符。

程式碼範例:

$str = "中文编程真有意思";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match("/[x{4e00}-x{9fa5}]{2,}/u", $str_gbk, $match);
echo $match[0];

輸出結果為:

中文编程真有意思
  1. #符合中文字元和其他字元

若要在字串中同時匹配中文字符和其他字符,可以使用[x{4e00}-x{9fa5}] 和[w](匹配任意字符或數字)對字符串進行匹配,例如:

代碼範例:

$str = "中文AI编程真有意思123";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match("/[x{4e00}-x{9fa5}w]+/u", $str_gbk, $match);
echo $match[0];

輸出結果為:

中文AI编程真有意思123

三、常用的正規表示式函數

  1. preg_match()
##preg_match()函數用於對字串進行正規表示式匹配,傳回匹配結果或FALSE。

語法:preg_match(string $pattern, string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0]]])

#範例程式碼:

$str = "中文编程真有意思";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match("/[x{4e00}-x{9fa5}]+/u", $str_gbk, $match);
echo $match[0];

輸出結果為:

中文编程真有意思

    preg_match_all()
preg_match_all() 函數用於在字串中找到所有符合正規表示式的匹配結果,傳回所有符合結果組成的陣列。

語法:preg_match_all(string $pattern, string $subject [, array &$matches [, int $flags = PREG_PATTERN_ORDER [, int $offset = 0]]])

#範例程式碼:

$str = "PHP是一门非常有用的编程语言,可以用来开发各种Web应用";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match_all("/[x{4e00}-x{9fa5}]+/u", $str_gbk, $match);
print_r($match[0]);

輸出結果為:

Array
(
    [0] => PHP是一门非常有用的编程语言
    [1] => 可以用来开发各种Web应用
)

    preg_replace()
preg_replace() 函數用於使用正規表示式來搜尋並取代字串。

語法:preg_replace(mixed $pattern, mixed $replacement, mixed $subject [, int $limit = -1 [, int &$count]])

範例程式碼:

$str = "我爱编程,编程使我快乐!";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
$new_str_gbk = preg_replace("/[x{4e00}-x{9fa5}]+/", "", $str_gbk);
$new_str = mb_convert_encoding($new_str_gbk, "UTF-8", "GBK");
echo $new_str;

輸出結果為:

,使我快乐!

四、總結

以上就是在PHP 中使用正規表示式來匹配中文字元的方法,對於輸入值的有效性驗證可以採用正規表示表達式加以實現。使用時需要注意中文字元的編碼方式,並根據需要選擇對應的正規表示式函數進行使用。

以上是如何在 PHP 中使用正規表示式來匹配中文字符的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn