首頁 >後端開發 >php教程 >簡述php中文字元截取防亂碼的方法

簡述php中文字元截取防亂碼的方法

墨辰丷
墨辰丷原創
2018-06-11 11:55:561632瀏覽

直接使用PHP函數substr截取中文字元可能會出現亂碼,主要是substr可能硬生生的將一個中文字元「鋸」成兩半。那我們來看看如何解決這個問題呢。

大家在自己的程式中相信都會常用到截取字串吧,但是往往遇到截取中文字串的時候會遇到亂碼的問題。很是讓人頭疼,接下來介紹兩種方法防止截取中文字串的時候出現亂碼的問題。
首先第一種,自己寫好的一個函數方便使用
利用這個函數截取就不會出現亂碼了。

/** 
 * 支持中文字符串截取 
 */ 
function msubstr($str, $start=0, $length, $charset="utf-8", $suffix=true){ 
  switch($charset){ 
    case 'utf-8':$char_len=3;break; 
    case 'UTF8':$char_len=3;break; 
    default:$char_len=2; 
  } 
  //小于指定长度,直接返回 
  if(strlen($str)<=($length*$char_len)){   
    return $str; 
  } 
  if(function_exists("mb_substr")){  
    $slice= mb_substr($str, $start, $length, $charset); 
  }else if(function_exists(&#39;iconv_substr&#39;)){ 
    $slice=iconv_substr($str,$start,$length,$charset); 
  }else{ 
    $re[&#39;utf-8&#39;]  = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}/"; 
    $re[&#39;gb2312&#39;] = "/[\x01-\x7f]|[\xb0-\xf7][\xa0-\xfe]/"; 
    $re[&#39;gbk&#39;]  = "/[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]/"; 
    $re[&#39;big5&#39;]  = "/[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|\xa1-\xfe])/"; 
    preg_match_all($re[$charset], $str, $match); 
    $slice = join("",array_slice($match[0], $start, $length)); 
  } 
  if($suffix) 
    return $slice; 
  return $slice; 
}

第二種是php內建的一個函數mb_substr函數

指定要截取的字串的編碼格式,就能有效的防止出現亂碼了。

說明

string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] ) 
<?php 
 function substr_unicode($str, $s, $l = null) { 
   return join("", array_slice( 
     preg_split("//u", $str, -1, PREG_SPLIT_NO_EMPTY), $s, $l)); 
 } 
 
$str = "Büyük"; 
 $s = 0; // start from "0" (nth) char 
 $l = 3; // get "3" chars 
 echo substr($str, $s, $l) ."\n";  
 echo mb_substr($str, $s, $l) ."\n"; 
 echo substr_unicode($str, $s, $l); 
 ?>

#總結:以上就是這篇文章的全部內容,希望能對大家的學習有所幫助。

相關推薦:

PHP事件機制的原理

php操作session及資料庫的方法

PHP微信介面實作二維碼產生類別

以上是簡述php中文字元截取防亂碼的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn