首頁 >php教程 >php手册 >PHP正確解析UTF-8字串技巧應用_php基礎

PHP正確解析UTF-8字串技巧應用_php基礎

WBOY
WBOY原創
2016-05-16 09:00:252100瀏覽

在《學習PHP&MYSQL之-字符編碼篇(一)》中介紹了Unicode與UTF-8的轉換關係,總結了一個UTF-8的編碼規則,根據這個編碼規則,寫一個UTF-8編碼的解析程序,以下是PHP的實作:

複製程式碼 程式碼如下:

/*
程式功能,$str是中英文混合的UTF-8編碼字串,
將此字串根據UTF-8的編碼規則正確的解碼並顯示。
*/


$str = '今天非常Happy,所有決定去KFC吃可樂雞翅!!!';

/*
$str 是待截取的字串
$len 是截取的字元數
*/
function utf8sub($str,$len) {
if($len return '';
}

$offset = 0; // 截取高位元組時的偏移量
$chars = 0; // 截取到的字元數
$res = ''; // 存放截取的結果字串

while($chars // 先取字串的第一個字節
// 將它轉為十進位
// 再轉為二元
$high = ord(substr($str,$offset,1));

// echo '$high='. $high .'
' ;

if($high == null ){ // 如果取出高位為null,證明已經取到末尾,直接break
break;
}
if(($high> >2) === 0x3F){ // 將高位右移2位,和二進位111111比較,相同則取6個位元組
// 截取2個位元組
$count = 6;
}else if(($high>>3) === 0x1F){ // 將高位右移2位,二進位11111比較,相同則取5個位元組
// 截取3個位元組$count = 5;
}else if(($high>>4) === 0xF){ // 將高位右移2位,與二進位1111比較,相同則取4個位元組

// 截取4個位元組
$count = 4;
}else if(($high>>5) === 0x7){ // 將高位右移2位,和二進位111比較,相同則取3個位元組

// 截取5個位元組
$count = 3;
}else if(($high>>6) === 0x3) { // 將高位右移2位,與二進位11比較,相同則取2個位元組
// 截取6個位元組
$count = 2;
}else if(($high >>7) === 0x0){ // 將高位右移2位,和二進位0比較,相同則取1個位元組
$count = 1;
}
// echo ' $count='.$count.'
';

$res .= substr($str,$offset,$count); // 取出一個字元與$res字串連接
$chars = 1; // 截取到的字元數1
$offset = $count; // 截取高偏移量向後移$count位元組
}
return $res;
}

echo utf8sub($str,100);
陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn