>백엔드 개발 >PHP 튜토리얼 >PHP 함수 substr에 의해 가로채어진 잘못된 한자에 대한 솔루션

PHP 함수 substr에 의해 가로채어진 잘못된 한자에 대한 솔루션

WBOY
WBOY원래의
2016-07-25 08:58:111983검색
本文介绍下,在使用php的字符串截取函数substr,截取中文字符时出现乱码的解决方法。有需要的朋友参考下吧。

php字符串截取函数substr:

string substr ( string $string , int $start [, int $length ] ) 返回string中从start位置开始长度为length的字符串

substr函数在截取字符,是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。

下面提供二个解决方法,供大家参考。

1,改用mb_substr函数 string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] ) 类似substr()函数,只是计数按字符数来计,保证字符安全 使用mb_substr()函数可保证不会出现乱码。 缺点:长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。

2,自建函数增强substr功能 中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近; 舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。

完整代码如下(用到了strtolower函数):

<?php
/**
* 增强型字符串截取函数
* 截取中文字符无乱码
* edit bbs.it-home.org
*/
function getstr($string, $length, $encoding  = 'utf-8') {
    $string = trim($string);
 
    if($length && strlen($string) > $length) {
        //截断字符
        $wordscut = '';
        if(strtolower($encoding) == 'utf-8') {
            //utf8编码
            $n = 0;
            $tn = 0;
            $noc = 0;
            while ($n < strlen($string)) {
                $t = ord($string[$n]);
                if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
                    $tn = 1;
                    $n++;
                    $noc++;
                } elseif(194 <= $t && $t <= 223) {
                    $tn = 2;
                    $n += 2;
                    $noc += 2;
                } elseif(224 <= $t && $t < 239) {
                    $tn = 3;
                    $n += 3;
                    $noc += 2;
                } elseif(240 <= $t && $t <= 247) {
                    $tn = 4;
                    $n += 4;
                    $noc += 2;
                } elseif(248 <= $t && $t <= 251) {
                    $tn = 5;
                    $n += 5;
                    $noc += 2;
                } elseif($t == 252 || $t == 253) {
                    $tn = 6;
                    $n += 6;
                    $noc += 2;
                } else {
                    $n++;
                }
                if ($noc >= $length) {
                    break;
                }
            }
            if ($noc > $length) {
                $n -= $tn;
            }
            $wordscut = substr($string, 0, $n);
        } else {
            for($i = 0; $i < $length - 1; $i++) {
                if(ord($string[$i]) > 127) {
                    $wordscut .= $string[$i].$string[$i + 1];
                    $i++;
                } else {
                    $wordscut .= $string[$i];
                }
            }
        }
        $string = $wordscut;
    }
    return trim($string);
}
 
// 示例
echo getstr("0一二三四五六七",1).'<br />';  // 0
echo getstr("0一二三四五六七",2).'<br />';  // 0
echo getstr("0一二三四五六七",3).'<br />';  // 0一
echo getstr("0一二三四五六七",4).'<br />';  // 0一
echo getstr("0一二三四五六七",5).'<br />';  // 0一二
echo getstr("0一a二b三四五六七",1).'<br />';    // 0
echo getstr("0一a二b三四五六七",2).'<br />';    // 0
echo getstr("0一a二b三四五六七",3).'<br />';    // 0一
echo getstr("0一a二b三四五六七",4).'<br />';    // 0一a
echo getstr("0一a二b三四五六七",5).'<br />';    // 0一a
//此函数由UCHome 1.5中的getstr()函数修改而来。
?>


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.