php不支援unicode是什麼意思

藏色散人原創: 2021-07-27 09:35:522840瀏覽

php不支援unicode是指PHP字串不保存字元的編碼訊息，所以原生操作函數，並不知道二進位資料該如何對應文本，只能假設一個字元對應單一位元組；這樣在處理英文等ascii碼時就夠用，但對於中文等多字節字符，就會出錯。

php不支援unicode是什麼意思

本文操作環境：windows7系統、PHP7.1版，DELL G3電腦

php不支援unicode是什麼意思？為什麼說PHP不支援Unicode編碼？

#常看到有說法：PHP不支援Unicode，或是說PHP在底層不支援Unicode。雖然我知道PHP編碼很蛋疼，各種字串處理函數都非常不規範，但也還能顯示中文，一直沒搞清楚這個不支援Unicode是什麼意思。花了一些時間來梳理這方面的資訊。

先從一個例子來引入：

一個PHP腳本如下，假設檔案的編碼是UTF-8:

//文件编码UTF-8
echo strlen("中文"); // 6
echo substr("中文",0,1) // 乱码
echo substr("中文",0,3) // 中

很奇怪吧，從上面看，似乎把一個漢字當成了3個字。這就要從PHP對於字串的儲存說起了。

我總結了一下，如下：

PHP的字串，是由位元組(byte)組成的陣列構成的。也就是說，類似C語言 char a[3] = "abc" 這樣，一個字元佔據一個位元組。

除此之外，並沒有儲存文字的編碼訊息，也就是說PHP並不知道這些字串的二進位數據，應該對應怎樣的編碼。

再進一步，PHP會依照腳本檔案的編碼，來決定字串的編碼。就例如：$string = "中文";，如果腳本檔案是UTF-8，就會把中文的UTF-8的編碼：E4B8ADE69687給保存起來。

再進一步，如前說所，PHP並不保存字串的編碼資訊。所以即便中文保存為:E4B8ADE69687,在字串原生函數看來，都只是一串二進制數。所以，PHP原生字串函數只能操作單字節字元！就是把一個位元組當做一個字元來處理！

如果想明白了上面幾點，上面的程式碼例子就自然明白了：

//文件编码UTF-8
echo bin2hex("中文"); // 可以看到，"中文"对应的二进制就是：e4b8ade69687
echo strlen("中文"); // 所以按照单字节来统计长度，就是6 
echo substr("中文",0,1) // 取0到1个字节，也就是e4，并不对应某个字符的编码，所以乱码
echo substr("中文",0,3) // 取0到3个字节，刚好把`中`的编码取出来

同理，如果把檔案編碼換成GBK或別的，再實驗也會得到類似的結果，只不過GBK一個漢字佔2位元組。

那麼到現在，基本上可以明白了PHP底層不支援unicode到底說的是什麼了，總結如下：

PHP字串不保存字元的編碼訊息，所以原生操作函數，並不知道二進位資料該如何對應文本，只能【假設】一個字元對應單一位元組。這樣在處理英文等ascii碼時夠用了，但對於中文等【多字節字元】，就會出錯了。

而作為反面，我們可以看看所謂底層支援Unicode的語言的情況：

var string = "中文"
console.log(string.length); // 2
string.substr(0,1) // 中

可以看到，在JS中，能正確識別和處理多字節字符。也就是在儲存時，把文字的編碼訊息也一併儲存。（這裡我猜測是保存的是文本的Unicode值，並不太確定，因為不了解JS的底層原理）

那麼這裡就有疑問了，PHP中如何才能正確處理多字節字元呢？答案就是mbstring擴充（具體可看：http://php.net/manual/zh/book.mbstring.php）。所謂mbstring,也就是：multi-byte string ,多位元組字串。

這套擴充功能中，有一系列與原生字串函數對應的函數，能用來正確處理多位元組字元的情況。如：strlen 對應 mb_strlen … 這些對應函數中，基本和原生函數一致，只不過通常多了一個可選參數：編碼。

舉例如下：

// 脚本类型为UTF-8
echo strlen("中文"); // 6
echo mb_strlen("中文","UTF-8"); //2  使用mb_strlen ，并传入编码 utf-8, 就会把二进制E4B8ADE69687当做utf-8的处理能正确处理
echo mb_strlen("中文"); //2  如果不传编码UTF-8,则函数会自动确定编码，文档说：如果省略，则使用内部字符编码。所以这里也当做UTF-8来处理。
echo mb_strlen("中文","GBK"); //3，如果传入编码GBK，则：e4b8ade69687会被当做gbk来处理，一个gbk字符占2字节，所以为：3

推薦學習：《PHP影片教學》

以上是php不支援unicode是什麼意思的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：php curl ssl不開啟怎麼設定下一篇：php curl ssl不開啟怎麼設定

看更多