Home  >  Article  >  Backend Development  >  php中截取单个中文

php中截取单个中文

WBOY
WBOYOriginal
2016-06-06 20:15:051430browse

1、怎样将php中出现的中文字符一个一个截取出来,有没有不用mb_substr的方法。
2、比如我写一个统计文件中(单个文件超过100万字)中文各字符出现次数的,java中用charAt方法即可遍历字符,程序写下来也就几秒,但是在php中用mb_库十分慢,等了好几分钟都没有结果。
3、附java实现的代码 java实现统计字符出现次数

回复内容:

1、怎样将php中出现的中文字符一个一个截取出来,有没有不用mb_substr的方法。
2、比如我写一个统计文件中(单个文件超过100万字)中文各字符出现次数的,java中用charAt方法即可遍历字符,程序写下来也就几秒,但是在php中用mb_库十分慢,等了好几分钟都没有结果。
3、附java实现的代码 java实现统计字符出现次数

经测试,我的代码应该是没有问题的,请指正:

<code>     $str = file_get_contents("hong.txt");
     preg_match_all("/./u", $str, $arr);
     $store = [];
     foreach($arr[0] as $value){
         if(array_key_exists($value, $store)){
             $store[$value]++;
         }else{
             $store[$value] = 1;
         }   
     }   
     asort($store);
     var_dump($store);</code>

此段代码在php7环境下对红楼梦进行操作(148万字),总耗时0.464s。

中文字符串分隔

<code><?php $tempaddtext = "php对UTF8字体串进行单字分割返回数组";

$cind     = 0;
$arr_cont = array();
for ($i = 0; $i < strlen($tempaddtext); $i++) {
    if (strlen(substr($tempaddtext, $cind, 1)) > 0) {
        if (ord(substr($tempaddtext, $cind, 1)) </code>

试试这个

<code><?php $str = "abc中国cn";
$keys = [];
for($i = 0, $l = strlen($str); $i < $l; $i++) {
    $key = ord($str[$i]);
    if ($key < 192) {
        $key = $str[$i];
    } else if ($key < 224) {
        $key = $str[$i] . $str[$i+1];
        $i ++;
    } else {
        $key = $str[$i] . $str[$i+1] . $str[$i+2];
        $i += 2;
    }
    if (! isset($keys[$key])) {
        $keys[$key] = 0;
    }
    $keys[$key]++;
}
print_r($keys);</code></code>

其实楼上的思路也没问题,但是代码效率不太好。我这个测试了一下,貌似有的字符识别不正常,还需要完善,只是给个思路而以。

这里有字符串截取、分割的终极解决方案。
点这里,点这里

用拓展理论上是最有效的方案,php代码能实现的一般都是正则来实现,在效率上是比不上拓展的。如果觉得慢回顾下算法。

Statement:
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn