ホームページ >バックエンド開発 >PHPチュートリアル >PHP正規表現一致中国語問題解析まとめ_PHPチュートリアル

PHP正規表現一致中国語問題解析まとめ_PHPチュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル
2016-07-21 15:19:38807ブラウズ

コードをコピーします コードは次のとおりです:

$str = '中華人民共和国 123456789abcdefg'
echo preg_match("/^[u4e00-u9fa5_a-zA-Z0-9]{3,15} $",$ strName);

上記のコードを実行して、どのようなプロンプトが表示されるか確認してください。

警告: preg_match(): コンパイルに失敗しました: PCRE は、F:wwwrootphptest.php の 2 行目のオフセット 3 で L、l、N、P、p、U、u、または X をサポートしていません
PHP の正規の式 次の Perl エスケープ シーケンスは、L、l、N、P、p、U、u ではサポートされていません。または、16 進数を表す文字列です。

元の 16 進エスケープ シーケンス xhh は、値が 127 より大きい場合、2 バイトの UTF-8 文字と一致します。
それで、
は次のように解決できます


コードをコピーします コードは次のとおりです:
preg_match("/^[x80-xff_a-zA-Z0-9]{3,15}$" ,$strName);
preg_match('/[x{2460}-x{2468}]/u', $str);


内部コードの漢字と一致する
彼が提供した方法に従ってテストします。コードは次のとおりです。次のように:



コードをコピー コードは次のとおりです:
$str = "php programming";
if (preg_match("/^[x{2460}-x{2468}]+$) /u",$str)) {
print( "この文字列はすべて中国語です");
} else {
print("この文字列はすべて中国語ではありません");
}


今回はまだ中国人かどうか判断を誤っていました。しかし、xで表現される16進数のデータなのに、jsで用意されているx4e00~x9fa5の範囲と違うのはなぜでしょうか?そこで、次のコードに変更しました:



コードをコピー コードは次のとおりです:
$str = "php programming"
if (preg_match("/^[x4e00-x9fa5]+$/) u ",$str)) {
print("この文字列はすべて中国語です");
} else {
print("この文字列はすべて中国語ではありません");
}


絶対そうだと思いました予想外に、警告が再び発生しました:
警告: preg_match() [function.preg-match]: コンパイルに失敗しました: test.php の 3 行目のオフセット 6 にある UTF-8 文字列が無効です

別のエラーがあるようですその記事の式を比較し、「4e00」と「9fa5」をそれぞれ「{」と「}」で囲み、再度実行したところ、それが非常に正確であることがわかりました。



コードをコピーしますは次のとおりです:
$str = "phpプログラミング";
if (preg_match("/^[x{4e00}-x{9fa5}]+$/u",$str)) {
print("This文字列はすべて中国語です");
} else {
print("この文字列はすべて中国語ではありません");
}


PHP での utf-8 エンコードの正規表現を知っています マッチングのための最終的な正しい表現漢字 - /^[x{4e00}-x{9fa5}]+$/u,

ついに結論



コードをコピー コードは次のとおりです:
//if (preg_match( "/^[".chr(0xa1)."-".chr(0xff)."]+$/", $str)) { //GB2312の場合のみ使用可
if (preg_match(" / ^[x7f-xff]+$/”, $str)) { //gb2312、utf-8 と互換性あり
echo “正しい入力”
} else {
echo “間違った入力”



double;バイト文字エンコード範囲

1. GBK (GB2312/GB18030)
x00-xff GBK 2 バイト エンコード範囲
x20-x7f ASCII
xa1-xff 中国語 gb2312
x80-xff 中国語 gbk

2。

u4e00-u9fa5 (中国語)
x3130-x318F (韓国語)
xAC00-xD7A3 (韓国語)
u0800-u4e00 (日本語)


http://www.bkjia.com/PHPjc/325211.html

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/325211.html技術記事次のようにコードをコピーします: $str = '中華人民共和国 123456789abcdefg'; echo preg_match("/^[u4e00-u9fa5_a-zA-Z0-9]{3,15}$",$strName); 、何が起こるか見てみましょう...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。