完美匹配中文的Php正则表达式-php教程-PHP中文網

首頁

後端開發

php教程

完美匹配中文的Php正则表达式

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2016 am 10:36 AM

quot

完善匹配中文的Php正则表达式

1. 笼统的使用元字符匹配中文，/.*?/s，可匹配一段中文，这在ANSI(gb2312)和utf-8环境的程序代码都可以实现。但提醒一下，\w不能匹配中文。曾在一本《精通正则表达式》(人民邮电出版社，沙金编著)书上看到可以使用\w匹配中文，这里纠正一下用php不行。可以使用”/./”，” /[^\d]/”，”/[^a]/”，匹配中文字符。

2. 如果要精准匹配中文，即匹配纯中文字符，或匹配中文字符加上全角标点，则需要根据不同编码环境使用不同方法。下面以两种常用的编码(gb2312,utf-8)进行介绍：

在 ANSI(gb2312)环境下，可使用[chr(0xnn)-chr(0xmm)]的方式匹配，如在一篇网文上就提供这样的方法，”/[".chr(0xb0)."-".chr(0xf7)."]+/”，这是可以使用的，但这太过笼统，这个表达式是匹配全部的gb2312编码表的字符，既包括汉字、标点、日文平假名等，还有一些不知是什么符号的。而从编码表可以看出汉字的编码范围是0xb0a1-0xf7fe，并且gb2312 是用两个字节进行编码的，每个字节最高位都是1 。所以可以藉此写出单纯匹配汉字的正则式：

"/([".chr(0xb0)."-".chr(0xf7)."][".chr(0xa1)."-".chr(0xfe)."])/" ，该表达式能匹配一个中文字符，数量关系就可以容易扩展了。

并且举一反三，如果想匹配全角标点而不匹配中文就可以这样写：

"/([".chr(0xa1)."-".chr(0xa3)."][".chr(0xa1)."-".chr(0xff)."])/"，就是匹配编码范围0xa1a1-0xa3ff内的符号。其他的类似。

3. 下面介绍utf-8环境下中文的匹配。类似于上面，也可以使用unicode编码表来确定中文的匹配。由编码表可以看出，中文的编码范围是0x4e00-0x9fa5,于是正则式可以这样写：

"/[\x{4e00}-\x{9fa5}]/u" ，\x{nnnn}表示字符的十六进制形式，更多信息请自己查看php手册。要特别注意的是模式修正符u ，php手册里这样说：u（PCRE_UTF8）此修正符启用了一个 PCRE 中与 Perl 不兼容的额外功能。模式字符串被当成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用，在 win32 下自 PHP 4.2.3 起可用。自 PHP 4.3.5 起开始检查模式的 UTF-8 合法性。这正是正确匹配所必须的。其实也想提醒一下，是utf-8环境使用元字符匹配字符串最好加上修正符u，这只是经验。

下面给两个例子：

(1) ANSI编程环境下:

$strtest = “yyg中文字符yyg”;

$pregstr = "/([".chr(0xb0)."-".chr(0xf7)."][".chr(0xa1)."-".chr(0xfe)."])+/i";

if(preg_match($pregstr,$strtest,$matchArray)){

echo $matchArray[0];

}

//output:中文字符

(2) Utf-8编程环境下:

$strtest = “yyg中文字符yyg”;

$pregstr = "/[\x{4e00}-\x{9fa5}]+/u";

if(preg_match($pregstr,$strtest,$matchArray)){

echo $matchArray[0];

}

//output:中文字符

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

可以在PHP會話中存儲哪些數據？May 02, 2025 am 12:17 AM

phpsessionscanStorestrings，數字，數組和原始物。

您如何開始PHP會話？May 02, 2025 am 12:16 AM

tostartaphpsession，usesesses_start（）attheScript'Sbeginning.1）placeitbeforeanyOutputtosetThesessionCookie.2）useSessionsforuserDatalikeloginstatusorshoppingcarts.3）regenerateSessiveIdStopreventFentfixationAttacks.s.4）考慮使用AttActAcks.s.s.4）

什麼是會話再生，如何提高安全性？May 02, 2025 am 12:15 AM

會話再生是指在用戶進行敏感操作時生成新會話ID並使舊ID失效，以防會話固定攻擊。實現步驟包括：1.檢測敏感操作，2.生成新會話ID，3.銷毀舊會話ID，4.更新用戶端會話信息。

使用PHP會話時有哪些性能考慮？May 02, 2025 am 12:11 AM

PHP会话对应用性能有显著影响。优化方法包括：1.使用数据库存储会话数据，提升响应速度；2.减少会话数据使用，只存储必要信息；3.采用非阻塞会话处理器，提高并发能力；4.调整会话过期时间，平衡用户体验和服务器负担；5.使用持久会话，减少数据读写次数。

PHP會話與Cookie有何不同？May 02, 2025 am 12:03 AM

PHPsessionsareserver-side,whilecookiesareclient-side.1)Sessionsstoredataontheserver,aremoresecure,andhandlelargerdata.2)Cookiesstoredataontheclient,arelesssecure,andlimitedinsize.Usesessionsforsensitivedataandcookiesfornon-sensitive,client-sidedata.

PHP如何識別用戶的會話？May 01, 2025 am 12:23 AM

phpIdentifiesauser'ssessionSessionSessionCookiesAndSessionId.1）whiwsession_start（）被稱為，phpgeneratesainiquesesesessionIdStoredInacookInAcookInAcienamedInAcienamedphpsessIdontheuser'sbrowser'sbrowser.2）thisIdallowSphptpptpptpptpptpptpptpptoretoreteretrieetrieetrieetrieetrieetrieetreetrieetrieetrieetrieetremthafromtheserver。

確保PHP會議的一些最佳實踐是什麼？May 01, 2025 am 12:22 AM

PHP會話的安全可以通過以下措施實現：1.使用session_regenerate_id()在用戶登錄或重要操作時重新生成會話ID。 2.通過HTTPS協議加密傳輸會話ID。 3.使用session_save_path()指定安全目錄存儲會話數據，並正確設置權限。

PHP會話文件默認存儲在哪裡？May 01, 2025 am 12:15 AM

phpsessionFilesArestoredIntheDirectorySpecifiedBysession.save_path，通常是/tmponunix-likesystemsorc：\ windows \ windows \ temponwindows.tocustomizethis：tocustomizEthis：1）useession_save_save_save_path_path（）

See all articles