>백엔드 개발 >PHP 튜토리얼 >php中的mb_detect_encoding函数原理是什么

php中的mb_detect_encoding函数原理是什么

WBOY
WBOY원래의
2016-06-06 20:41:211412검색

php中的mb_detect_encoding可以根据输入的字符串判断它到底属于哪种编码,这种判断是如何进行的,utf-8和asc的宽度都不一样,而且前者还是变长的,它如何判断多出来的那个字节到底是属于下一个字的还是这个字最后一个字节

回复内容:

php中的mb_detect_encoding可以根据输入的字符串判断它到底属于哪种编码,这种判断是如何进行的,utf-8和asc的宽度都不一样,而且前者还是变长的,它如何判断多出来的那个字节到底是属于下一个字的还是这个字最后一个字节

与其说utf-8ascii区别,不如说如何判断 ascii和非ascii
ascii最大是127,判断时,只要这个字节大于127,也就是7f,就可以认定是这个字节属于多字节编码。不论是GBK还是UTF-8 都是兼容ascii
1. utf-8 每个字的第一个字节,有表示这个字总共有多少个字节。所有变长的数据类型基本是这么实现的, 比如数据库的varchar也是有多出来的字节保存长度,就不会误读。
2. GBK是等宽双字节的,只要这个字节不是ascii字符,就把它和下一个读在一起就OK 了
3. 至于如何猜测 utf-8gbk,我也不了解。猜测应该是通过一些算法,去匹配编码规律或码表吧,关于这个可以参考:http://blog.csdn.net/ecjtuync/article/details/1774429

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.