ホームページ >バックエンド開発 >PHPチュートリアル >中国語に一致する PHP 正規表現に関連する問題の分析

中国語に一致する PHP 正規表現に関連する問題の分析

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2016-06-13 12:28:57910ブラウズ

PHP 正規表現マッチング中国語問題分析

$str = '中华人民共和国123456789abcdefg';<br>echo preg_match("/^[u4e00-u9fa5_a-zA-Z0-9]{3,15}$",$strName);

上記のコードを実行して、どのようなプロンプトが表示されるか確認してください。

警告: preg_match(): コンパイルに失敗しました: PCRE は、F:http://www.hzhuti.com のオフセット 3 で L、l、N、P、p、U、u、または X をサポートしていません/nokia/5800/ 行 2
次の Perl エスケープシーケンスは、PHP 正規表現でサポートされていないことがわかります: L、l、N、P、p、U、u、または X

UTF の場合 -8 モードでは、「x{...}」が許可され、中括弧内の内容は 16 進数を表す文字列です。

元の 16 進エスケープシーケンス xhh は、値が 127 より大きい場合、2 バイトの UTF-8 文字と一致します。
したがって、
は次のように解決できます

preg_match("/^[x80-xff_a-zA-Z0-9]{3,15}$",$strName);<br><br><br>preg_match('/[x{2460}-x{2468}]/u', $str);

内部コード化された中国語の文字と一致します
に従ってテストします彼が提供したメソッド、コードは次のとおりです:

コードは次のとおりですコードをコピーします

$str = "php编程";<br>if (preg_match("/^[x{2460}-x{2468}]+$/u",$str)) {<br>print("该字符串全部是中文");<br>} else {<br>print("该字符串不全部是中文");<br>}

を見つけました今回はまだ中国人かどうか判断を誤っていました。しかし、xで表現される16進数のデータなのに、jsで用意されているx4e00～x9fa5の範囲と違うのはなぜでしょうか？そこで、次のコードに変更しました。

$str = "php编程";<br>if (preg_match("/^[x4e00-x9fa5]+$/u",$str)) {<br>print("该字符串全部是中文");<br>} else {<br>print("该字符串不全部是中文");<br>}

確実に成功したと思ったのですが、予期せず、警告が再び発生しました。
Warning: preg_match() [function.preg-match]: Compilation failed: valid UTF-8 string at offset 6 in test.php on line 3

また間違った式があるようなので、比較してみました。その記事の式を修正し、「4e00」と「9fa5」をそれぞれ「{」と「}」で囲み、再度実行したところ、それが非常に正確であることがわかりました:

$str = "php编程";<br>if (preg_match("/^[x{4e00}-x{9fa5}]+$/u",$str)) {<br>print("该字符串全部是中文");<br>} else {<br>print("该字符串不全部是中文");<br>}<br>

php の utf-8 エンコーディングを知っています中国語の文字を一致させるための最終的な正しい表現正規表現を使用 - /^[x{4e00}-x{9fa5}] $/u、

、そして最終的に

//if (preg_match(“/^[".chr(0xa1)."-".chr(0xff)."]+$/”, $str)) { //只能在GB2312情况下使用<br>if (preg_match(“/^[x7f-xff]+$/”, $str)) { //兼容gb2312,utf-8<br>echo “正确输入”;<br>} else {<br>echo “错误输入”;<br>}

全角文字エンコーディング範囲

1. GBK (GB2312/GB18030)
x00-xff GBK 全角エンコーディング範囲
x20- x7f ASCII
xa1-xff gb2312
x80-xff 中国語 gbk

2. UTF-8 (Unicode)

u4e00-u9fa5 (中国語)
x3130-x318F (韓国語
xAC00-xD7A3 (韓国語)
u0800-u4e00 (日本語)

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：PHP は 2 次元配列と 3 次元配列をフィルタリングします次の記事：PHP は 2 次元配列と 3 次元配列をフィルタリングします

続きを見る

中国語に一致する PHP 正規表現に関連する問題の分析

関連記事