Home  >  Q&A  >  body text

php中截取单个中文

1、怎样将php中出现的中文字符一个一个截取出来,有没有不用mb_substr的方法。
2、比如我写一个统计文件中(单个文件超过100万字)中文各字符出现次数的,java中用charAt方法即可遍历字符,程序写下来也就几秒,但是在php中用mb_库十分慢,等了好几分钟都没有结果。
3、附java实现的代码 java实现统计字符出现次数

黄舟黄舟2772 days ago476

reply all(4)I'll reply

  • 天蓬老师

    天蓬老师2017-04-10 17:03:57

    经测试,我的代码应该是没有问题的,请指正:

         $str = file_get_contents("hong.txt");
         preg_match_all("/./u", $str, $arr);
         $store = [];
         foreach($arr[0] as $value){
             if(array_key_exists($value, $store)){
                 $store[$value]++;
             }else{
                 $store[$value] = 1;
             }   
         }   
         asort($store);
         var_dump($store);

    此段代码在php7环境下对红楼梦进行操作(148万字),总耗时0.464s。

    reply
    0
  • ringa_lee

    ringa_lee2017-04-10 17:03:57

    中文字符串分隔

    <?php
    $tempaddtext = "php对UTF8字体串进行单字分割返回数组";
    
    $cind     = 0;
    $arr_cont = array();
    for ($i = 0; $i < strlen($tempaddtext); $i++) {
        if (strlen(substr($tempaddtext, $cind, 1)) > 0) {
            if (ord(substr($tempaddtext, $cind, 1)) < 192) {
                if (substr($tempaddtext, $cind, 1) != " ") {
                    array_push($arr_cont, substr($tempaddtext, $cind, 1));
                }
                $cind++;
            } elseif (ord(substr($tempaddtext, $cind, 1)) < 224) {
                array_push($arr_cont, substr($tempaddtext, $cind, 2));
                $cind += 2;
            } else {
                array_push($arr_cont, substr($tempaddtext, $cind, 3));
                $cind += 3;
            }
        }
    }
    
    print_r($arr_cont);
    

    reply
    0
  • 天蓬老师

    天蓬老师2017-04-10 17:03:57

    试试这个

    <?php
    $str = "abc中国cn";
    $keys = [];
    for($i = 0, $l = strlen($str); $i < $l; $i++) {
        $key = ord($str[$i]);
        if ($key < 192) {
            $key = $str[$i];
        } else if ($key < 224) {
            $key = $str[$i] . $str[$i+1];
            $i ++;
        } else {
            $key = $str[$i] . $str[$i+1] . $str[$i+2];
            $i += 2;
        }
        if (! isset($keys[$key])) {
            $keys[$key] = 0;
        }
        $keys[$key]++;
    }
    print_r($keys);

    其实楼上的思路也没问题,但是代码效率不太好。我这个测试了一下,貌似有的字符识别不正常,还需要完善,只是给个思路而以。

    reply
    0
  • 高洛峰

    高洛峰2017-04-10 17:03:57

    这里有字符串截取、分割的终极解决方案。
    点这里,点这里

    用拓展理论上是最有效的方案,php代码能实现的一般都是正则来实现,在效率上是比不上拓展的。如果觉得慢回顾下算法。

    reply
    0
  • Cancelreply