Heim >Backend-Entwicklung >PHP-Tutorial >字符串切分 utf-8(支持汉语、日文、韩文等,高效、)

字符串切分 utf-8(支持汉语、日文、韩文等,高效、)

WBOY
WBOYOriginal
2016-07-25 09:08:021362Durchsuche
因为mb_substr、mb_strlen太过低效,故而采用了此段代码。

非原创,主要原理是根据UTF-8的编码特点
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
来获取字符边界,从而确定一个字所占字节数,并处理成数组。


方便对字符操作比较频繁的用户,此函数效率比mb_substr高效10倍,我曾经写过一个「N万违禁词替换类」,在开发此类过程中,详细对比过这两者的效率,此函数明显胜出。
  1. function str_split_utf8($str) {
  2. // place each character of the string into and array
  3. $split = 1;
  4. $array = array(); $len = strlen($str);
  5. for ( $i = 0; $i $value = ord($str[$i]);
  6. if($value > 0x7F){
  7. if($value >= 0xC0 && $value $split = 2;
  8. elseif($value >= 0xE0 && $value $split = 3;
  9. elseif($value >= 0xF0 && $value $split = 4;
  10. elseif($value >= 0xF8 && $value $split = 5;
  11. elseif($value >= 0xFC)
  12. $split = 6;
  13. } else {
  14. $split = 1;
  15. }
  16. $key = '';
  17. for ( $j = 0; $j $key .= $str[$i];
  18. }
  19. $array[] = $key;
  20. }
  21. return $array;
  22. }
复制代码


Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn