首頁 >常見問題 >unicode字符集採用幾個位元組表示一個字符

unicode字符集採用幾個位元組表示一個字符

青灯夜游
青灯夜游原創
2021-05-07 16:43:2614273瀏覽

unicode字元集採用2個位元組表示一個字元。 unicode為每種語言中的每個字元設定了統一且唯一的二進位編碼,以滿足跨語言、跨平台進行文字轉換、處理的要求;它可以將世界上所有的文字用2個位元組統一進行編碼。

unicode字符集採用幾個位元組表示一個字符

本教學操作環境:windows7系統、Dell G3電腦。

unicode字元集採用2個位元組表示一個字元。

Unicode(統一碼、萬國碼、單碼)是電腦上使用的字元編碼。它為每種語言中的每個字元設定了統一且唯一的二進位編碼,以滿足跨語言、跨平台進行文字轉換、處理的要求。

如果把各種文字編碼形容為各地的方言,那麼Unicode就是世界各國合作開發的語言。

在這種語言環境下,不會再有語言的編碼衝突,在同螢幕下,可以顯示任何語言的內容,這就是Unicode的最大好處。就是將世界上所有的文字用2個位元組統一進行編碼。那樣,像這樣統一編碼,2個位元組就已經足夠容納世界上所有的語言的大部分文字了。

Unicode的學名是"Universal Multiple-Octet Coded Character Set",簡稱為UCS。

早期的Unicode標準有UCS-2、UCS-4的說法。 UCS-2用兩個位元組編碼,UCS-4用4個位元組編碼。現在用的是UCS-2,也就是2個位元組編碼,而UCS-4是為了防止將來2個位元組不夠用才開發的。

UCS-4依最高位元為0的最高位元組分成2^7=128個group。每個group再依次高位元組分為256個平面(plane)。每個平面依第3個位元組分為256行 (row),每行有256個碼位(cell)。 group 0的平面0被稱為BMP(Basic Multilingual Plane)。將UCS-4的BMP去掉前面的兩個零位元組就得到了UCS-2。

更多相關知識,請造訪常見問題欄位!

以上是unicode字符集採用幾個位元組表示一個字符的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn