ホームページ >バックエンド開発 >PHPチュートリアル >PHP は中国の正規ルールに一致します (再版)!
php 正規一致中国語 (2011-09-26 10:10:46)
タグ: 雑話 カテゴリ: 専門記事
転載: http://hi.baidu.com/?_d/blog/item/063b77d5432f8f1aa18bb7fd . html
JavaScript では、文字列が中国語かどうかを判断するのは非常に簡単です。例:
var str = "phpプログラミング";
if (/^[u4e00-u9fa5]+$/.test(str)) {
alert("この文字列はすべて中国語です");
} else {
alert("この文字列はすべて中国語ではありません");
}
もちろん、PHP を使用して文字列が中国語かどうかを判断するときは、次の考えに従います。 ? php
$str = "php プログラミング";
if (preg_match("/^[u4e00-u9fa5]+$/",$str)) {
print("文字列はすべて中国語です");
} else {
print("この文字列はすべて中国語ではありません");
}
?>
ただし、すぐに php がそのような式をサポートしていないことがわかり、エラーが発生しますが報告されています:
警告: preg_match() [function.preg-match]: コンパイルに失敗しました: PCRE は、test.php の 3 行目のオフセット 3 で L、l、N、U、または u をサポートしていません
まずは Google で何度も調べ、PHP の正規表現で 16 進数のデータを表現する方法をブレークスルーしたいと考えていたところ、PHP では 16 進数のデータを表すために x が使用されていることがわかりました。したがって、
は次のコードに変換されます:
$str = "php programming";
if (preg_match("/^[x4e00-x9fa5]+$/",$str)) {
print(" The string is all in Chinese");
} else {
print("The string is not all in Chinese");
}
エラーは報告されていないようで、判定結果は正しいようですが、ただし、$str を「プログラミング」という単語に置き換えます。ただし、結果
には、まだ「文字列の一部が中国語ではない」と表示されます。この判断は十分に正確ではないようです。
その後、Baidu に戻って「php は中国語の文字と一致する utf 8」を検索したところ、記事の一致度は Google よりもはるかに高いことがわかりました
どうやら Baidu の「Baidu は中国語をよく理解しているようです。」 」はまだある程度正しいです。 2 番目の記事「★★★ UTF8 で中国語の文字を一致させるための規則的なルールを探しています
元の投稿者 zhiin (┈ Jcan ┈ ) 2006-11 -15 15:59:30 Web 開発/PHP の質問
全角文字と特殊記号を除く、UTF8 での中国語文字の一致に関する規則を見つけてください
[u4e00-u9fa5] は中国語と一致しますが、PHP はサポートしていません
憂鬱...
1 Floor PleaseDoTellMeWhy (アッラーのご加護を!) 2006-11-15 16:04:55 に返信されました スコア 11
chr(0xa1) '-' はすべての中国語に一致しますが、方法がわかりません。 UTF-8 で動作します !Top
2 Lou zhiin (┈ Jcan ┈) は 2006-11-15 16:11:34 に返信しました スコア 0
gb2312 の下でも、 chr(0xa1) 。 chr(0xff) も間違っています
全角記号にも一致します Top
パターン修飾子: u
これらの人々が提供した手がかりに従って 1 つずつ試してみたところ、確かに彼らの言うとおりであり、それはエンコーディングと関係がある可能性があることがわかりました
それで、パターン修飾子についてもっと知る必要がありました??そこで、Baidu を検索し続けました。
「パターン修飾子」に関する記事から学びました:
u (PCRE_UTF8)
この修飾子は、Perl と互換性のない PCRE の追加機能を有効にします。パターン文字列は UTF-8 として扱われます。
この修飾子は、Unix では PHP 4.1.0 以降、win32 では PHP 4.2.3 以降で使用できます。
preg_match('/[x{2460}-x{2468}]/u', $str); 内部コードの中国語文字と一致する
彼が提供した方法に従ってテストすると、コードは次のとおりです。
$str = "phpプログラミング";
if (preg_match("/^[x{2460}-x{2468}]+$/u",$str)) {
print("This string is all Chinese");
} else {
print("This string is not all Chinese");
}
今回はやはり中国語かどうかの判断を誤っていたことが分かりました。しかし、x は 16 進数のデータを表すのに、
が js で提供される x4e00 ~ x9fa5 の範囲と異なるのはなぜでしょうか。そこで、次のコードに変更しました:
$str = "php programming";
if (preg_match("/^[x4e00-x9fa5]+$/u",$str)) {
print(" 文字列すべて中国語です");
} else {
print("文字列はすべて中国語ではありません");
}
確実に成功したと思ったのですが、思いがけず、また警告が発生しました :
警告: preg_match() [function.preg-match]: Compilation failed: valid UTF-8 string at offset 6 in test.php on line 3
また間違った表現があるようなので確認してみた その記事の表現ですが、
「4e00」と「9fa5」の両側をそれぞれ「{」と「}」で囲みます。再度実行すると、それが非常に正確であることがわかりました。
$str = "php programming";
if (preg_match ("/ ^[x{4e00}-x{9fa5}]+$/u",$str)) {
print("この文字列はすべて中国語です");
} else {
print("この文字列はすべて中国語ではありません");
}
PHP の UTF-8 エンコーディングで正規表現を使用して中国語の文字と一致させる最終的な正しい表現を知っていますか??/^[x{4e00}-x{9fa5} ] +$/u,
そこで、この表現を使って百度で検索してみたら、実は他の人がそのような正しい結論に達していることを発見しましたが、
従来の方法では見つけることが難しく、たった1つの記事しかありませんでした。 ??「正規表現を使用して漢字を削除する」という問題が見つかり、インターネット上の
情報の正確性の審査は依然として早急に強化される必要があるようです。
追記: Google を諦めなかったので検索したところ、別の記事「PHP Common Classes」を見つけました。
まだ Baidu Space にありました、はは、興味深いですね!
------------------------------------------------ -------------------------------------------------- --------------------------------
上記の記事を参考に、以下のテストコードを書きました(コピー次のコードを作成し、php ファイルとして保存します)
$action =rim($_GET['action']);
if($action == "sub")
{
$str = $_POST ['dir'];
//if(!preg_match("/^[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_ ]+$/",$ str)) //GB2312 漢字英数字下線正規表現
if(!preg_match("/^[x{4e00}-x{9fa5}A-Za-z0-9_]+$/ u",$str) ) //UTF-8 漢字英数字下線正規表現
{
echo"入力した [".$str."] には不正な文字が含まれています ";
}
else
{
入力した「.$str."] は完全に合法です。合格しました!";
}
}
? >
(転送)