PHP字符串中用正则表达式匹配中文出现乱码-php教程-PHP中文網

首頁

後端開發

php教程

PHP字符串中用正则表达式匹配中文出现乱码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:22 PM

php正規表示式

<code><?php echo '<h2>正则表达式匹配中文<br>';
$a = '天地不仁，以万物为刍狗';
$b = preg_replace('/万/','萬',$a);
echo $b;
echo '<h2 id="加上方括号后替换结果出现乱码">加上方括号后替换结果出现乱码</h2>
<br>';
$c = '天地不仁，以万物为刍狗';
$d = preg_replace('/[万]/','萬',$a);
echo $d;
 ?>
</code>

以上程序运行结果可以在http://nyaii.com/s/test.php看到。不知为何，为匹配的中文字符加上方括号后就出现了乱码。同样的情形，在javascript中执行就一切正常。

<code> '天地不仁'.replace(/[天]/,'')
 //outputs "地不仁"
</code>

回复内容：

<code><?php echo '<h2>正则表达式匹配中文<br>';
$a = '天地不仁，以万物为刍狗';
$b = preg_replace('/万/','萬',$a);
echo $b;
echo '<h2 id="加上方括号后替换结果出现乱码">加上方括号后替换结果出现乱码</h2>
<br>';
$c = '天地不仁，以万物为刍狗';
$d = preg_replace('/[万]/','萬',$a);
echo $d;
 ?>
</code>

<code> '天地不仁'.replace(/[天]/,'')
 //outputs "地不仁"
</code>

加上UTF8修饰符即可

<code>$d = preg_replace('/[万]/u','萬',$a);</code>

其余修饰符请见
http://php.net/manual/en/reference.pcre.pattern.modifiers.php

以下为对于题主评论中的问题的补充内容

关于为什么[]内就需要加u修饰符的问题，实际上严格来说，两种场合你最好都加上u修饰符

但为什么[]就会导致乱码呢，这就要从字节层面而不是字符层面来解释了。

首先我们知道PHP的字符串并不是Unicode进行存储的，然后我们来看下这个代码

<code><?php $a = "万";
echo strlen($a); //3
for ($i = 0; $i < strlen($a); $i++) {
    echo dechex(ord($a[$i])) . ' '; //e4 b8 87
}</code></code>

我们可以拿到"万"字的utf8十六进制编码是e4b887
所以在没有开启utf8修饰符的时候，正则表达式引擎并没有把"万"当成一个独立的字符，而是三个字节的连续数据。

以下是结论：

当没有[]进行匹配的时候，它寻找的是十六进制编码值为 e4 b8 87 的三个连续字符，换句话说，实际上你的模式是\xe4\xb8\x87，但这种连续字符的出现在你的字符串中，只有"万"字能对上，所以替换了并不会有乱码。但如果你的字符串里面可能还要包括四字节的utf8编码字符，例如emoji，可能就会导致问题了
当你在万外面包装了[]，正则表达式引擎实际上找的是[\xe4\xb8\x87]，懂正则表达式的很快就能发现它实际上是匹配这三个字符的任意一个，所以这个时候就会影响到除了万以外的别的汉字了
当你加了utf8修饰符之后，"万"会被正则表达式当成是一个独立的字符，所以不再会产生这个问题

至于javascript，因为它对字符编码是原生的unicode，每个字符都会被当成一个字符而不是拆分成字节数据，所以不会产生这个问题

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP：服務器端腳本語言的簡介Apr 16, 2025 am 12:18 AM

PHP是一種服務器端腳本語言，用於動態網頁開發和服務器端應用程序。 1.PHP是一種解釋型語言，無需編譯，適合快速開發。 2.PHP代碼嵌入HTML中，易於網頁開發。 3.PHP處理服務器端邏輯，生成HTML輸出，支持用戶交互和數據處理。 4.PHP可與數據庫交互，處理表單提交，執行服務器端任務。

PHP和網絡：探索其長期影響Apr 16, 2025 am 12:17 AM

PHP在過去幾十年中塑造了網絡，並將繼續在Web開發中扮演重要角色。 1)PHP起源於1994年，因其易用性和與MySQL的無縫集成成為開發者首選。 2)其核心功能包括生成動態內容和與數據庫的集成，使得網站能夠實時更新和個性化展示。 3)PHP的廣泛應用和生態系統推動了其長期影響，但也面臨版本更新和安全性挑戰。 4)近年來的性能改進，如PHP7的發布，使其能與現代語言競爭。 5)未來，PHP需應對容器化、微服務等新挑戰，但其靈活性和活躍社區使其具備適應能力。

為什麼要使用PHP？解釋的優點和好處Apr 16, 2025 am 12:16 AM

PHP的核心優勢包括易於學習、強大的web開發支持、豐富的庫和框架、高性能和可擴展性、跨平台兼容性以及成本效益高。 1)易於學習和使用，適合初學者；2)與web服務器集成好，支持多種數據庫；3)擁有如Laravel等強大框架；4)通過優化可實現高性能；5)支持多種操作系統；6)開源，降低開發成本。

揭穿神話：PHP真的是一種死語嗎？Apr 16, 2025 am 12:15 AM

PHP沒有死。 1)PHP社區積極解決性能和安全問題，PHP7.x提升了性能。 2)PHP適合現代Web開發，廣泛用於大型網站。 3)PHP易學且服務器表現出色，但類型系統不如靜態語言嚴格。 4)PHP在內容管理和電商領域仍重要，生態系統不斷進化。 5)通過OPcache和APC等優化性能，使用OOP和設計模式提升代碼質量。

PHP與Python辯論：哪個更好？Apr 16, 2025 am 12:03 AM

PHP和Python各有優劣，選擇取決於項目需求。 1)PHP適合Web開發，易學，社區資源豐富，但語法不夠現代，性能和安全性需注意。 2)Python適用於數據科學和機器學習，語法簡潔，易學，但執行速度和內存管理有瓶頸。

PHP的目的：構建動態網站Apr 15, 2025 am 12:18 AM

PHP用於構建動態網站，其核心功能包括：1.生成動態內容，通過與數據庫對接實時生成網頁；2.處理用戶交互和表單提交，驗證輸入並響應操作；3.管理會話和用戶認證，提供個性化體驗；4.優化性能和遵循最佳實踐，提升網站效率和安全性。

PHP：處理數據庫和服務器端邏輯Apr 15, 2025 am 12:15 AM

PHP在數據庫操作和服務器端邏輯處理中使用MySQLi和PDO擴展進行數據庫交互，並通過會話管理等功能處理服務器端邏輯。 1）使用MySQLi或PDO連接數據庫，執行SQL查詢。 2）通過會話管理等功能處理HTTP請求和用戶狀態。 3）使用事務確保數據庫操作的原子性。 4）防止SQL注入，使用異常處理和關閉連接來調試。 5）通過索引和緩存優化性能，編寫可讀性高的代碼並進行錯誤處理。