中国語の文字を UTF-8 正規表現と照合する方法、utf-8 正規表現_PHP チュートリアル-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

中国語の文字を UTF-8 正規表現と照合する方法、utf-8 正規表現_PHP チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 09:45 AM

utf-8正規表現

UTF-8 正規表現が中国語の文字と一致する方法、utf-8 正規表現

入力コンテンツに不正な文字が含まれているかどうかを確認するには、以下のコードを参照してください

リーリー

-------------------------------------

UTF-8 一致:
JavaScript では、文字列が中国語かどうかを判断するのは非常に簡単です。

例:

コードをコピーしますコードは次のとおりです:
var str = "phpプログラミング";
if (/^[u4e00-u9fa5]+$/.test(str))

{alert("文字列はすべて中国語です");
}
else{alert("この文字列はすべて中国語ではありません");
}

PHP では、x は 16 進数のデータを表すために使用されます。

それでは、次のコードに変換します:

コードをコピーしますコードは次のとおりです: $str = "php プログラミング"; if (preg_match("/^[x4e00-x9fa5]+$/",$str))
{
print("この文字列はすべて中国語です"); }
else { print("この文字列はすべて中国語ではありません");
}

エラーは報告されていないようで、判定結果は正しいようですが、$strを「programming」という単語に置き換えても、結果は「文字列がすべて中国語ではありません」と表示されるようです。十分に正確ではありません。

重要:

「正規表現に精通した人」を調べたところ、[x4e00-x9fa5] については自分で詳細な説明を作成したことがわかりました PHP の正規表現では、[x4e00-x9fa5] は実際には文字と文字グループの概念です。ただし、hex は 1 ～ 2 桁または 4 桁になります。は 4 桁です。中括弧を追加する必要があります。

同時に、x{FF} より大きい 16 進数の場合は、u 修飾子と一緒に使用する必要があります。そうしないと、不正なエラーが発生します

インターネット上では、全角文字の一致に関する通常のルールは ^[x80-xff]*^/ のみです。中括弧を追加せずに中国語と一致させることもできます [u4e00-u9fa5] が、PHP ではサポートされていません。 x は 16 進数を表すため、システムデータが js で提供される x4e00 ～ x9fa5 の範囲と異なるのはなぜですか?

そこで、以下のコードに変更したところ、それが非常に正確であることがわかりました。

コードをコピーします

コードは次のとおりです: $str = "php プログラミング"; if (preg_match("/^[x{4e00}-x{9fa5}]+$/u",$str)) { print("この文字列はすべて中国語です"); }
else { print("この文字列はすべて中国語ではありません");
}

PHP で UTF-8 エンコーディングで正規表現を使用して中国語の文字を照合する最終的な正しい表現はわかりました—/^[x{4e00}-x{9fa5}]+$/u を参照して、次のテストコードを書きました。上記の記事（以下のコードをコピーして.phpファイルとして保存してください）

リーリー

GBK:

コードをコピーします

コードは次のとおりです:

preg_match("/^[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+$/",$str); //GB2312 漢字英数字下線正規表現上記の内容は、PHP で漢字を UTF-8 正規表現と一致させる方法に関するものです。気に入っていただければ幸いです。

http://www.bkjia.com/PHPjc/1042689.html

www.bkjia.com

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

php怎么去除字符串中的所有大写字母Sep 26, 2022 pm 07:59 PM

两种去除方法：1、利用preg_replace()执行正则表达式搜索所有大写字母并将其替换为空字符即可，语法“preg_replace('/[A-Z]/','',$str)”。2、利用preg_filter()执行正则表达式搜索所有大写字母并将其替换为空字符即可，语法“preg_filter('/[A-Z]/','',$str)”。

php怎么替换nbsp空格符Apr 24, 2022 pm 02:55 PM

方法：1、用“str_replace(" ","其他字符",$str)”语句，可将nbsp符替换为其他字符；2、用“preg_replace("/(\s|\&nbsp\;||\xc2\xa0)/","其他字符",$str)”语句。

使用Go语言编写高性能的正则表达式匹配Jun 15, 2023 pm 10:56 PM

随着数据量的不断增大，正则表达式匹配成为了程序中常用的操作之一。而在Go语言中，由于其天然的并行ism，以及与底层系统的交互性和高效性，使得Go语言的正则表达式匹配极具优势。那么如何使用Go语言编写高性能的正则表达式匹配呢？一、了解正则表达式在使用正则表达式前，我们首先需要了解正则表达式，了解其基本语法规则以及常用的匹配字符，使我们能够在编写正则表达式时更加

php怎么利用正则排除字符串中的字符Dec 15, 2022 pm 03:30 PM

两种方法：1、用preg_replace()，可执行正则表达式的搜索和替换，只需将字符串中匹配的字符替换为空字符即可，语法“preg_replace(正则, "", $str)”。2、用preg_match_all()，可搜索字符串中所有和正则表达式匹配的结果，会将每次的匹配结果放在一个数组$array中，语法“preg_match_all(正则,$str,$array);”。

javascript怎么正则替换非汉字的字符Oct 13, 2022 pm 05:37 PM

在javascript中，可以使用replace()函数配合正则表达式“/[u4e00-u9fa5|,]+/ig”来查找字符串中的所有非汉字字符，并将其替换为其他指定值，语法“字符串对象.replace(/[u4e00-u9fa5|,]+/ig,'指定替换值')”。

php怎么只获取中文字符Apr 28, 2022 pm 08:15 PM

php中可用preg_match_all()配合正则表达式过滤字符串，只获取中文字符；语法“preg_match_all("/[\x{4e00}-\x{9fff}]+/u","$str",$arr);”，会将匹配字符存入“$arr”数组中。

Java语言正则表达式的使用方法Jun 10, 2023 am 08:13 AM

Java语言正则表达式的使用方法正则表达式是一种强大的文本处理工具，可以用来匹配和验证文本。在Java语言中，也可以使用正则表达式来实现字符串的匹配和处理。本文将介绍Java语言正则表达式的使用方法，涵盖正则表达式的基础知识，常用的正则表达式语法，以及在Java程序中使用正则表达式的方法。一、基础知识正则表达式是什么？正则表达式是一种文本模式，用来描述一组字

PHP开发：如何编写高效的正则表达式Jun 15, 2023 pm 09:04 PM

在PHP开发中，正则表达式是非常重要的工具，用于匹配、查找和替换文本中的特定字符串。然而，编写高效的正则表达式并不是一件易事，需要开发者具备一定的技巧和经验。下面是一些可以帮助您编写高效正则表达式的技巧：1.尽可能使用非贪婪匹配默认情况下，正则表达式是贪婪的，即它们将尽可能匹配更多的文本。在某些情况下，可能需要使用非贪婪匹配来避免这种情况。非贪婪匹配使用"

See all articles