ホームページ >バックエンド開発 >PHPチュートリアル >PHP 正規表現一致中国語問題分析_PHP チュートリアル
$str = '中華人民共和国 123456789abcdefg';
echo preg_match("/^[u4e00-u9fa5_a-zA-Z0-9]{3,15}$",$strName);
上記のコードを実行すると、どのようなプロンプトが表示されるか確認してください。
警告: preg_match(): コンパイルに失敗しました: PCRE は、F:http://www.hzhuti.com/nokia/5800/ のオフセット 3 で L、l、N、P、p、U、u、または X をサポートしていません。 2行目
次の Perl エスケープ シーケンスは、PHP 正規表現ではサポートされていないことが判明しました: L、l、N、P、p、U、u、または X
UTF-8 モードでは、「x{...}」が許可され、中括弧内の内容は 16 進数を表す文字列です。
元の 16 進エスケープ シーケンス xhh は、値が 127 より大きい場合、2 バイトの UTF-8 文字と一致します。
それで、
これなら解決できます
preg_match("/^[x80-xff_a-zA-Z0-9]{3,15}$",$strName);
preg_match('/[x{2460}-x{2468}]/u', $str);
内部コードの漢字と一致します
彼が提供した方法に従ってテストします。コードは次のとおりです:
コードは次のとおりです コードをコピーします
$str = "php プログラミング";
if (preg_match("/^[x{2460}-x{2468}]+$/u",$str)) {
print("この文字列はすべて中国語です");
} その他 {
print("この文字列はすべて中国語ではありません");
}
今回もやはり中国人かどうかの判断を誤っていたことが分かりました。しかし、xで表現される16進数のデータなのに、jsで用意されているx4e00~x9fa5の範囲と違うのはなぜでしょうか?そこで、次のコードに変更しました:
$str = "php プログラミング";
if (preg_match("/^[x4e00-x9fa5]+$/u",$str)) {
print("この文字列はすべて中国語です");
} その他 {
print("この文字列はすべて中国語ではありません");
}
確実に成功したと思っていたのに、思いがけず再び警告が発生しました:
警告: preg_match() [function.preg-match]: コンパイルに失敗しました: test.php の 3 行目のオフセット 6 に無効な UTF-8 文字列があります
他にも間違った表現があるようなので、その記事の表現を比較して、「4e00」と「9fa5」をそれぞれ「{」と「}」で囲んで再度実行したところ、すでに正確であることがわかりました。
$str = "php プログラミング";
if (preg_match("/^[x{4e00}-x{9fa5}]+$/u",$str)) {
print("この文字列はすべて中国語です");
} その他 {
print("この文字列はすべて中国語ではありません");
}
PHP の UTF-8 エンコーディングで正規表現を使用して中国語の文字を照合する最終的な正しい表現を知っています—/^[x{4e00}-x{9fa5}]+$/u,
ついにwww.2cto.comを締結
//if (preg_match("/^[".chr(0xa1)."-".chr(0xff)."]+$/", $str)) { //GB2312の場合のみ使用可
if (preg_match(“/^[x7f-xff]+$/”, $str)) { //gb2312、utf-8 と互換性があります
echo "正しく入力してください";
} その他 {
echo "入力が間違っています";
}
全角文字エンコード範囲
1. GBK (GB2312/GB18030)
x00-xff GBK 2 バイトエンコード範囲
x20-x7f アスキー
xa1-xff 中国語 gb2312
x80-xff 中国の GBK
2. UTF-8 (ユニコード)
u4e00-u9fa5 (中国語)
x3130-x318F (韓国語
)
xAC00-xD7A3 (韓国語)
u0800-u4e00 (日本語)
PHP開発から抜粋