Maison > Article > développement back-end > php中截取中文字符会出现乱码的问题
php中内置函数substr()可以对指定字符串进行截取,不过,它只对全英文字符串的截取是比较适合的。如果字符串中出现了中文,就有可能导致截取后出现乱码的问题,甚至在一些场景中如json编码的时候会导致输出结果为null。
原因是不同字符集中每个字符占用的字节数不一样,如UTF-8编码中每个汉字占3字节,而GB2312汉字占2字节,英文则都只占1字节。确切的说substr()中后两个参数指定的是字节数量而不是字符数量,所以就有可能出现最后一个汉字字符截取不完整的情况从而出现中文乱码。
遇到中文字符截取时,更好的方法是使用mbstring扩展库的mb_substr()/mb_strcut()函数。这两个方法比substr()在最后位置多一个参数,用来指定字符串编码。$str = '无乱码的世界更和谐'; echo "mb_substr:" . mb_substr($str, 0, 7, 'utf-8');
mb_substr是按字符来切分字符串,而mb_strcut是按字节来切分字符串,但是都不会产生半个字符的现象,从而不会出现中文乱码。
如果提示mb_substr()方法不存在,那是服务器没有打开php_mbstring.dll扩展,需要在php.ini配置文件中把php_mbstring.dll打开。
extension=php_mbstring.dll