ホームページ  >  記事  >  バックエンド開発  >  PHP で指定された数の中国語文字列をインターセプトする 4 つの方法

PHP で指定された数の中国語文字列をインターセプトする 4 つの方法

WBOY
WBOYオリジナル
2016-06-20 13:04:401781ブラウズ

PHP Web サイトを作成する場合、ユーザー エクスペリエンスとレイアウトを向上させるために、出力する中国語の文字をいくつか指定することがよくあります。PHP を使用して、UTF-8 中国語文字列の半分の文字をインターセプトすることもできます。コード化けの問題。以下に、PHP で指定された数の中国語文字列をインターセプトする 2 つの方法を紹介します

1. UTF8 でエンコードされた文字の特徴

UTF-8 でエンコードされた文字は 1 ~ 3 バイトで構成されます。最初のバイトから判断されます。 (理論的にはもっと長い可能性がありますが、ここでは 3 バイトを超えないと仮定します) 最初のバイトが 224 より大きい場合、そのバイトとそれに続く 2 バイトは UTF-8 文字を形成します。最初のバイトは 192 より大きく、それ以下です。 224 以外の場合、それとその後の 1 バイトは UTF-8 文字を形成します。それ以外の場合、最初のバイト自体は英語の文字 (数字と句読点の一部を含む) になります。


<?php<br />//$sourcestr 要处理的字符串 <br />//$cutlength 截取的长度(即字数) <br />function cut_str($sourcestr,$cutlength) <br />{ <br />   $returnstr=''; <br />   $i=0; <br />   $n=0; <br />   $str_length=strlen($sourcestr);//字符串的字节数 <br />   while (($n<$cutlength) and ($i<=$str_length)) <br />   { <br />      $temp_str=substr($sourcestr,$i,1); <br />      $ascnum=Ord($temp_str);//得到字符串中第$i位字符的ascii码 <br />      if ($ascnum>=224)    //如果ASCII位高与224,<br />      { <br />         $returnstr=$returnstr.substr($sourcestr,$i,3); //根据UTF-8编码规范,将3个连续的字符计为单个字符         <br />         $i=$i+3;            //实际Byte计为3<br />         $n++;            //字串长度计1<br />      }<br />      elseif ($ascnum>=192) //如果ASCII位高与192,<br />      { <br />         $returnstr=$returnstr.substr($sourcestr,$i,2); //根据UTF-8编码规范,将2个连续的字符计为单个字符 <br />         $i=$i+2;            //实际Byte计为2<br />         $n++;            //字串长度计1<br />      }<br />      elseif ($ascnum>=65 && $ascnum<=90) //如果是大写字母,<br />      { <br />         $returnstr=$returnstr.substr($sourcestr,$i,1); <br />         $i=$i+1;            //实际的Byte数仍计1个<br />         $n++;            //但考虑整体美观,大写字母计成一个高位字符<br />      }<br />      else                //其他情况下,包括小写字母和半角标点符号,<br />      { <br />         $returnstr=$returnstr.substr($sourcestr,$i,1); <br />         $i=$i+1;            //实际的Byte数计1个<br />         $n=$n+0.5;        //小写字母和半角标点等与半个高位字符宽...<br />      } <br />   } <br />         if ($str_length>$cutlength){<br />          $returnstr = $returnstr . "...";//超过长度时在尾处加上省略号<br />      }<br />    return $returnstr;<br /><br /><br />}<br />?>

2. ASCII 値の特性 1

<?php<br />function cutstr($string, $length) {<br />        preg_match_all("/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/", $string, $info);  <br />        for($i=0; $i<count($info[0]); $i++) {<br />                $wordscut .= $info[0][$i];<br />                $j = ord($info[0][$i]) > 127 ? $j + 2 : $j + 1;<br />                if ($j > $length - 3) {<br />                        return $wordscut." ...";<br />                }<br />        }<br />        return join('', $info[0]);<br />}<br />$string="242432PHP建站门户系统7890";<br />for($i=0;$i<strlen($string);$i++)<br />{<br /> echo cutstr($string,$i)."<br>";<br />}<br />?><count info="" 0="" i="" wordscut="" j="ord($info[0][$i])"><strlen string="" i="" echo="" cutstr="" br=""></strlen></count>

3.文字による ASCII 値 2

<?php<br />function utf8_substr($str,$len)<br />{<br />for($i=0;$i<$len;$i++)<br />{<br />$temp_str=substr($str,0,1);<br />if(ord($temp_str) > 127)<br />{<br />$i++;<br />if($i<$len)<br />{<br />$new_str[]=substr($str,0,3);<br />$str=substr($str,3);<br />}<br />}<br />else<br />{<br />$new_str[]=substr($str,0,1);<br />$str=substr($str,1);<br />}<br />}<br />return join($new_str);<br />}<br />?>

Ⅳ. 文字による ASCII 値の特徴 3


<?php<br />function msubstr($str, $start, $len) {<br />    $tmpstr = "";<br />    $strlen = $start + $len;<br />    for($i = 0; $i < $strlen; $i++) {<br />        if(ord(substr($str, $i, 1)) > 0xa0) {<br />            $tmpstr .= substr($str, $i, 2);<br />            $i++;<br />        } else<br />            $tmpstr .= substr($str, $i, 1);<br />    }<br />    return $tmpstr;<br />}<br /><br /><br />?>



声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。