ホームページ >バックエンド開発 >PHPチュートリアル >PHP 正規表現一致中国語問題分析、_PHP チュートリアル

PHP 正規表現一致中国語問題分析、_PHP チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル
2016-07-12 08:56:58917ブラウズ

php 正規表現一致中国語問題分析、

$str = '中华人民共和国123456789abcdefg';<br />echo preg_match("/^[u4e00-u9fa5_a-zA-Z0-9]{3,15}$",$strName);



上記のコードを実行して、どのようなプロンプトが表示されるか確認してください。

警告: preg_match(): コンパイルに失敗しました: PCRE は F のオフセット 3 で L、l、N、P、p、U、u、または X をサポートしていません: http://www.hzhuti.com/nokia/5800 / 2 行目
次の Perl エスケープ シーケンスは、PHP 正規表現でサポートされていないことが判明しました: L、l、N、P、p、U、u、または X

UTF-8 モードでは、「x{...}」が許可され、中括弧内の内容は 16 進数を表す文字列です。

元の 16 進エスケープ シーケンス xhh は、値が 127 より大きい場合、2 バイトの UTF-8 文字と一致します。
つまり、
このように解決できます

リーリー


内部コード化された中国語の文字と一致する
彼が提供した方法に従ってテストします。コードは次のとおりです:

コードは次のとおりです コードをコピーします

リーリー


今回は中国語かどうかの判断がまだ難しいことがわかりました。しかし、xで表現される16進数のデータなので、jsで用意されているx4e00~x9fa5の範囲と違うのはなぜでしょうか?そこで、次のコードに変更しました:

リーリー


確実に成功したと思ったのですが、予想外に、再び警告が発生しました:
警告: preg_match() [function.preg-match]: コンパイルに失敗しました: test.php の 3 行目のオフセット 6 に無効な UTF-8 文字列があります

また間違った表現があるようなので、その記事の表現を比較して「4e00」と「9fa5」をそれぞれ「{」と「}」で囲んで実行してみたところ、正しいことが分かりました。 :

PHP 正規表現一致中国語問題分析、_PHP チュートリアル リーリー PHP 正規表現一致中国語問題分析、_PHP チュートリアル


PHP で UTF-8 エンコーディングで正規表現を使用して中国語の文字と一致させるための最終的な正しい表現を知っています——/^[x{4e00}-x{9fa5}]+$/u,

ついに完結

リーリー


全角文字エンコード範囲

1. GBK (GB2312/GB18030)
x00-xff GBK 2 バイトエンコード範囲
x20-x7f ASCII
xa1-xff 中国語 gb2312
x80-xff 中国語 gbk

2. UTF-8 (ユニコード)

u4e00-u9fa5 (中国語)
x3130-x318F (韓国語)
xAC00-xD7A3 (韓国語)
u0800-u4e00 (日本語)

www.bkjia.com本当http://www.bkjia.com/PHPjc/1110328.html技術記事 PHP 正規表現マッチング中国語問題分析、 $str = 'People's Republic of China 123456789abcdefg'; echo preg_match("/^[u4e00-u9fa5_a-zA-Z0-9]{3,15}$",$strName); を実行します。上 このコード...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。