>  기사  >  php教程  >  PHP在GB2312编码下截断字符串

PHP在GB2312编码下截断字符串

WBOY
WBOY원래의
2016-06-06 19:45:231100검색

GB2312编码下一个汉字用strlen统计出来的长度为2,那么用substr来截断字符串可能会出现把一个汉字的一半给截掉了,那样就会出现乱码。 首先想到的是按偶数个截断,其实这样思考也是不完善的,因为如果截出来的子串中有一个半角字符,那样还是会出现如上的问

GB2312编码下一个汉字用strlen统计出来的长度为2,那么用substr来截断字符串可能会出现把一个汉字的一半给截掉了,那样就会出现乱码。

首先想到的是按偶数个截断,其实这样思考也是不完善的,因为如果截出来的子串中有一个半角字符,那样还是会出现如上的问题,这个时候地判断子串中包含多少个半角字符,如果是偶数个就按上面的方法解决,如果是奇数个,那就要多截一个或少截一个字符,这样就不会乱码。

其实我首先想到的使用mb_strlen和mb_substr来截,但是我发现我的php文件不是UNICODE编码,那么在这这文件中写的php代码用这两个函数返回的值都是不正确,所以这种方法只在unicode编码可取。

统计半角符号的方法是,从32到127这些ASCII码都是办法,写个函数:

function singleByteCharCount($str) {
	$cnt = 0;
	for ($i = 0; $i  127) {
			continue;
		}
		$cnt++;
	}
	return $cnt;
}

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.