PHP中的字串、編碼、UTF-8的程式碼詳解-php教程-PHP中文網

首頁

後端開發

php教程

PHP中的字串、編碼、UTF-8的程式碼詳解

黄舟

Mar 06, 2017 am 09:54 AM

最近看了不少編碼方面的文章，所以分二篇博文說下“PHP、字符串、編碼、UTF-8”相關知識，本篇博文是上半部分，分為四大塊內容，分別是“字串的定義與使用」、「字串轉換」、「PHP 字串的本質」、「多位元組字串」。上半部比較基礎，下一篇文章《PHP 與 UTF-8的最佳實踐》可能乾貨多一點。

　字串的定義與使用

# 　　PHP 中能夠透過四種方法設定字串：

# 　　單引號字串

# 　　單引號字串類似於 Python 中的原始字串,也就是說單引號字串沒有變數解析功能和特殊字元轉義功能。例如$str='hello\nworld'，其中的\n並沒有換行功能。

　　雙引號字串

# 　　雙引號字串具備單引號字串沒有的變數解析功能和特殊字元轉義功能。

　　個人對於十六進制和八進制的字串特殊轉義很感興趣，特別補充：

\[0-7]{1,3} #八进制表达方式
\x[0-9A-Fa-f]{1,2} #十六进制表达方式

　　heredoc

　　這種表達式類似於 Python 中的長字串，能夠定義包含多行的字串。其語法定義很嚴格，使用起來需要注意。

$str=<<<EOD
hello\n
world
EOD;

　　Nowdoc

# 　　Nowdoc類似單引號字串，不會解析變數。比較適合定義一大段文字且無需對其中的特殊字元進行轉義。

　　變數解析

　　PHP字串最強大的部分就是變數解析，可以在運行時根據上下文解析變數（這才是解釋型語言），可以產生很多妙用。

　　簡單的變數解析就是在字串中可以包含“變數”，“數組”，“物件屬性”，複雜的語法規則就是使用{}符號來進行操作（組成一個表達式）。

　　透過一個例子看看變數解析的強大之處

class beers {
    const softdrink = &#39;softdrink&#39;;
    public static $ale = &#39;ale&#39;;
    public $data = array(1,3,"k"=>4);
}

$softdrink = "softdrink";
$ale = "ale";
$arr = array("arr1","arr2","arr3"=>"arr4","arr4"=>array(1,2));
$arr4 = "arr4";
$obj = new beers;
echo "line1:{$arr[1]}\n";
echo "line2:{$arr[&#39;arr4&#39;][0]}\n"; 
echo "line3:{$obj->data[1]}\n";
echo "line4:{${$arr[&#39;arr3&#39;]}}\n";
echo "line5:{${$arr[&#39;arr3&#39;]}[1]}\n";
echo "line6:{${beers::softdrink}}\n";
echo "line7:{${beers::$ale}}\n";

　字串轉換

　　PHP 語言比 Python 簡單的另一個原因就是類型的隱式轉換，會簡化很多操作，這裡透過字串轉換來說明。

　　字串型別強制轉換

$var = 10 ;
$dvar = (string)$var ;
echo $dvar . "_" . gettype($dvar);

　　strval()函數是取得變數的字串值：

$var = 10.2 ;
$dvar = strval($var) ;
echo gettype($var) . "_" . $dvar . "_" . gettype($dvar);

　　settype()函數是設定變數的型別：

$str = "10hello";
settype($str, "integer");
echo $str ;

　　在強制型別轉換過程中，將其他型別的值轉換為字串的時候會遵循一定的規則，例如一個布林值 boolean 的 TRUE 被轉換成 string 的「1」。相關規則最好還是理解下。

　　自動型別轉換

　　上面的二個轉換屬於顯示轉換，而更要關注的是自動類型轉換，在一個需要字串的表達式中，會自動轉換為類型，具體見例子：

$bool = true;
$str = 10 + "hello"
echo $bool . "_" . $str ;

　PHP 字串的本質

# 　　引用 PHP 文件的解釋：

PHP 中的 string 的實作方式是由位元組組成的陣列再加上一個整數指明緩衝區長度。並無如何將位元組轉換成字元的訊息，由程式設計師來決定。字串由什麼值構成沒有限制，包括值為 0 的位元組可以出現在字串的任何位置。

PHP並沒有特別指明字串的編碼，那字串到底是怎麼編碼的呢，這取決於程式設計師。字串會依照 PHP 檔案的編碼來對字串進行編碼。例如你的檔案編碼是 GBK，那你程式碼內容都是 GBK的。

# 　　補充二進位安全這個概念，其值為 0 （NULL）的位元組可以處於字串任何位置，而 PHP 的部分非二進位函數底層是呼叫的 C 函數，會把 NULL 後面的字元忽略。

　只要 PHP 的檔案編碼是能相容 ASCII 的，那麼字串操作就可以很好的被處理。但是字串運算本質上還是 Native 的（不管檔案編碼是什麼），所以在使用的時候需要注意：

某些函數假定字串是以單字節編碼的，但並不需要將位元組解釋為特定的字元。如 sbustr() 函數。
# 很多函數是需要顯示的傳遞編碼參數，不然會從 PHP.INI 檔案中取得預設值，例如 htmlentities() 函數。
# 還有一些函數和本地區域有關，這些函數也只能是單字節操作的。

一般情況下，雖然PHP 內部不支援Unicode 字符，但支援UTF-8 編碼，絕大部分情況下不會有什麼問題，但是下列的情況可能就處理不了了：

## 非 UTF-8 編碼字串如何進行轉換
# 一個UTF-8 編碼的網頁，但是使用者在提交表單的時候，可能使用GBK 的編碼（不遵守meta tag）
一個 UTF-8 編碼的 PHP 文件，使用 strlen("中國")傳回的是 6 而不是實際的字元數（2）

　　那麼如何解決該問題呢？ PHP 提供了 mbstring 擴充功能！

　多位元組字串

　　mbstring 擴充預設不是開啟的，安裝的時候需要 --enable-mbstring。

　　我們先來看看 PHP.INI 中對於 mbstring 指令的配置，花了好久才逐步明白。

mbstring.language 這個參數我就理解為 UTF-8 了
mbstring.internal_encoding 這個編碼和PHP 檔案編碼沒有關係，只是在大部分mbstring 函數裡面需要指定待處理字串的編碼，假如不顯示指定，預設就取得該參數的值，該參數的值在高版本PHP 中用default_charset 參數代替了。
# mbstring.http_input 此參數指定 HTTP input 的預設編碼（不包含 GET 參數）。一般和 HTML 頁面的編碼保持一致，該參數的值以 default_charset 參數取代。
# mbstring.http_output 這個參數誤導我了，HTTP output 是什麼，PHP 輸出不就是頁面，怎麼會有這概念？
# mbstring.encoding_translation，這個參數重點說下，預設是關閉的，假如打開，PHP 會對POST 變數和上傳檔案的名稱自動轉換編碼為mbstring.internal_encoding 指定的值，不過我沒有試驗過，大家可以上傳一個中文名的文件。建議關閉，讓程式設計師來處理相關問題。

　　後面來看看 mbstring 擴充的一些函數：

# mb_http_input()：偵測 HTTP input 字元編碼，覺得對於檔案上傳的檔案名稱有必要處理。
# mb_convert_encoding()：比較常用的函數，注意第三個參數。
# mb_detect_order()：設定/取得字元編碼的偵測順序。
# mb_list_encodings()：傳回系統支援的編碼清單。

　　重點說明下：PHP 檔案支援的編碼有一定要，要相容 ASCII。

　　但不要使用 BIG-5 作為 PHP 檔案編碼，尤其字串以 identifiers 或 literals 形式出現，假如實在 PHP 檔案編碼要是 BIG-5，那麼對於輸入輸出的內容盡量轉換為 UTF-8。

　Zend Multibyte

# 　　最後說下 Zend Multibyte 這個概念，理解的不是特別深刻，首先不要和 mbstring 擴展混在一塊。 Zend Multibyte 模式預設是關閉的，可以透過 zend.multibyte 指令開啟。然後透過 declare() 函數來指定 PHP 解析器的編碼。

　　那這個指令出現的意義是什麼？上面說過PHP 檔案的編碼需要是相容ASCII 的，那麼類似於BIG-5 這樣的非相容ASCII 編碼怎麼辦，可以透過這個指令來操作，當PHP 解析器讀取mbstring.script_encoding 編碼並用該編碼來解析PHP 檔案。

以上就是PHP中的字串、編碼、UTF-8的程式碼詳解的內容，更多相關內容請關注PHP中文網（www.php.cn）！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP：服務器端腳本語言的簡介Apr 16, 2025 am 12:18 AM

PHP是一種服務器端腳本語言，用於動態網頁開發和服務器端應用程序。 1.PHP是一種解釋型語言，無需編譯，適合快速開發。 2.PHP代碼嵌入HTML中，易於網頁開發。 3.PHP處理服務器端邏輯，生成HTML輸出，支持用戶交互和數據處理。 4.PHP可與數據庫交互，處理表單提交，執行服務器端任務。

PHP和網絡：探索其長期影響Apr 16, 2025 am 12:17 AM

PHP在過去幾十年中塑造了網絡，並將繼續在Web開發中扮演重要角色。 1)PHP起源於1994年，因其易用性和與MySQL的無縫集成成為開發者首選。 2)其核心功能包括生成動態內容和與數據庫的集成，使得網站能夠實時更新和個性化展示。 3)PHP的廣泛應用和生態系統推動了其長期影響，但也面臨版本更新和安全性挑戰。 4)近年來的性能改進，如PHP7的發布，使其能與現代語言競爭。 5)未來，PHP需應對容器化、微服務等新挑戰，但其靈活性和活躍社區使其具備適應能力。

為什麼要使用PHP？解釋的優點和好處Apr 16, 2025 am 12:16 AM

PHP的核心優勢包括易於學習、強大的web開發支持、豐富的庫和框架、高性能和可擴展性、跨平台兼容性以及成本效益高。 1)易於學習和使用，適合初學者；2)與web服務器集成好，支持多種數據庫；3)擁有如Laravel等強大框架；4)通過優化可實現高性能；5)支持多種操作系統；6)開源，降低開發成本。

揭穿神話：PHP真的是一種死語嗎？Apr 16, 2025 am 12:15 AM

PHP沒有死。 1)PHP社區積極解決性能和安全問題，PHP7.x提升了性能。 2)PHP適合現代Web開發，廣泛用於大型網站。 3)PHP易學且服務器表現出色，但類型系統不如靜態語言嚴格。 4)PHP在內容管理和電商領域仍重要，生態系統不斷進化。 5)通過OPcache和APC等優化性能，使用OOP和設計模式提升代碼質量。

PHP與Python辯論：哪個更好？Apr 16, 2025 am 12:03 AM

PHP和Python各有優劣，選擇取決於項目需求。 1)PHP適合Web開發，易學，社區資源豐富，但語法不夠現代，性能和安全性需注意。 2)Python適用於數據科學和機器學習，語法簡潔，易學，但執行速度和內存管理有瓶頸。

PHP的目的：構建動態網站Apr 15, 2025 am 12:18 AM

PHP用於構建動態網站，其核心功能包括：1.生成動態內容，通過與數據庫對接實時生成網頁；2.處理用戶交互和表單提交，驗證輸入並響應操作；3.管理會話和用戶認證，提供個性化體驗；4.優化性能和遵循最佳實踐，提升網站效率和安全性。

PHP：處理數據庫和服務器端邏輯Apr 15, 2025 am 12:15 AM

PHP在數據庫操作和服務器端邏輯處理中使用MySQLi和PDO擴展進行數據庫交互，並通過會話管理等功能處理服務器端邏輯。 1）使用MySQLi或PDO連接數據庫，執行SQL查詢。 2）通過會話管理等功能處理HTTP請求和用戶狀態。 3）使用事務確保數據庫操作的原子性。 4）防止SQL注入，使用異常處理和關閉連接來調試。 5）通過索引和緩存優化性能，編寫可讀性高的代碼並進行錯誤處理。