搜尋
首頁後端開發PHP問題php utf8怎麼轉unicode

php utf8怎麼轉unicode

Jul 18, 2020 am 09:29 AM
unicodeutf8

php utf8轉unicode的方法:先建立一個PHP範例檔;然後定義一個「utf8_str_to_unicode」方法;接著透過ord以及dechex等函數實作轉換功能;最後執行該檔即可。

php utf8怎麼轉unicode

PHP實作Unicode和Utf-8編碼的互相轉換

最近剛好要用到unicode編碼的轉換,就去查了一下php的函式庫函數,居然沒找到一個函數可以對字串進行Unicode的編碼和解碼!也罷,找不到的話就自己實現了。 。 。

Unicode和Utf-8編碼的區別

Unicode是字元集,而UTF-8是Unicode的其中一種,Unicode是定長的都為雙字節,而UTF-8是可變的,對於漢字來說Unicode佔有的位元組比UTF-8佔用的位元組少1個位元組。 Unicode為雙位元組,而UTF-8中漢字佔三個位元組。

UTF-8編碼字元理論上可以最多到6個位元組長,然而16位元BMP(Basic Multilingual Plane)字元最多只用到3位元組長。下面看一下UTF-8編碼表:

U-00000000 - U-0000007F: 0xxxxxxx 
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx 
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

xxx 的位置由字元編碼數的二進位表示的位元填入, 越靠右的x 具有越少的特殊意義,只用最短的那個足夠表達一個字元編碼數的多位元組字串。注意在多位元組字串中, 第一位元組的開頭"1"的數目就是整個字串中位元組的數目。而第一行中以0開頭,是為了相容ASCII編碼,為一個字節,第二行就為雙字節字串,第三行為3字節,如漢字就屬於這種,以此類推。 (個人認為:其實我們可以簡單的把前面的1的個數看成字節數)

#Unicode怎麼轉換成Utf-8呢

為了要將Unicode轉換為UTF-8,當然要知道他們的差別到底在什麼地方。下面來看一下,在Unicode中的編碼是怎麼轉換成UTF-8的,在UTF-8中,如果一個字符的字節小於0x80(128)則為ASCII字符,佔一個字節,可以不用轉換,因為UTF-8相容於ASCII編碼。假如在Unicode中漢字“你”的編碼為“u4F60”,把它轉換為二進制為100111101100000,然後按照UTF-8的方法進行轉換。可以將Unicode二進制從低位往高位取出二進制數字,每次取6位,如上述的二進制就可以分別取出為如下所示的格式,前面按格式填補,不足8位用0填補。

unicode: 100111101100000                   4F60
utf-8:    11100100,10111101,10100000       E4BDA0

從上面就可以很直覺的看出Unicode到UTF-8之間的轉換,當然知道了UTF-8的格式後,就可以進行逆運算,就是按照格式把它在二進位中對應的位置上取出,然後在轉換就是所得到的Unicode字元了(這個運算可以透過「位移」來完成)。如上述的「你」的轉換,由於其值大於0x800小於0x10000,因此可以判斷為三字節存儲,則最高位需要向右移「12」位再根據三字節格式的最高位為11100000(0xE0 )求或(|)就可以得到最高位的值了。同理第二位則是右移「6」位,則還剩下最高位和第二位的二進位值,可以透過與111111(0x3F)求按位於(&)操作,再和11000000(0x80)求或(|)。第三位就不用移位了,只要直接取最後六位(與111111(ox3F)取&),在與11000000(0x80)求或(|)。

Utf-8怎麼逆轉回Unicode呢

當然在UTF-8到Unicode的轉換也是透過移位等來完成的,就是把UTF-8那些格式對應的位置的二進制數給揪出來。在上述例子中「你」為三個字節,因此要每個位元組進行處理,有高位到低位進行處理。

在UTF-8中「你」為11100100,10111101,10100000。從高位起即第一個位元組11100100就是把其中的"0100"給取出來,這個很簡單只要和11111(0x1F)取與(&),由三字節可以得知最到位肯定位於12位之前,因為每次取六位。

所以還要將得到的結果左移12位,最高位也就這樣完成了0100,000000,000000。而第二位則是要把「111101」給取出來,只需將第二位元組10111101和111111(0x3F)取與(&)。在將所得的結果左移6位與最高位元組所得的結果取或(|),第二位就這樣完成了,得到的結果為0100,111101,000000。

以此類推最後一位直接與111111(0x3F)取與(&),再與前面所得的結果取或(|)即可得到結果0100,111101,100000。

PHP程式碼實作

/**
 * utf8字符转换成Unicode字符
 * @param  [type] $utf8_str Utf-8字符
 * @return [type]           Unicode字符
 */
function utf8_str_to_unicode($utf8_str) {
    $unicode = 0;
    $unicode = (ord($utf8_str[0]) & 0x1F) << 12;
    $unicode |= (ord($utf8_str[1]) & 0x3F) << 6;
    $unicode |= (ord($utf8_str[2]) & 0x3F);
    return dechex($unicode);
}
/**
 * Unicode字符转换成utf8字符
 * @param  [type] $unicode_str Unicode字符
 * @return [type]              Utf-8字符
 */
function unicode_to_utf8($unicode_str) {
    $utf8_str = &#39;&#39;;
    $code = intval(hexdec($unicode_str));
    //这里注意转换出来的code一定得是整形,这样才会正确的按位操作
    $ord_1 = decbin(0xe0 | ($code >> 12));
    $ord_2 = decbin(0x80 | (($code >> 6) & 0x3f));
    $ord_3 = decbin(0x80 | ($code & 0x3f));
    $utf8_str = chr(bindec($ord_1)) . chr(bindec($ord_2)) . chr(bindec($ord_3));
    return $utf8_str;
}

測試一下了

$utf8_str = &#39;我&#39;;
//这是汉字“你”的Unicode编码
$unicode_str = &#39;4f6b&#39;;
//输出 6211
echo utf8_str_to_unicode($utf8_str) . "<br/>";
//输出汉字“你”
echo unicode_str_to_utf8($unicode_str);

以上這些轉換是針對中文漢字【往大了說是非ASCII】的測試,因為如果是ASCII的話,轉來轉去都是一樣的,也用不著費那麼大工夫。

還有就是這兩個函數只是簡單的實作了一下,只支援單一字元【一個完整的utf8字元或是一個完整的Unicode字元】互相轉換,大家如果明白得話就可以盡情去擴展了。 。 。

推薦:《PHP教學

以上是php utf8怎麼轉unicode的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
酸與基本數據庫:差異和何時使用。酸與基本數據庫:差異和何時使用。Mar 26, 2025 pm 04:19 PM

本文比較了酸和基本數據庫模型,詳細介紹了它們的特徵和適當的用例。酸優先確定數據完整性和一致性,適合財務和電子商務應用程序,而基礎則側重於可用性和

PHP安全文件上傳:防止與文件相關的漏洞。PHP安全文件上傳:防止與文件相關的漏洞。Mar 26, 2025 pm 04:18 PM

本文討論了確保PHP文件上傳的確保,以防止諸如代碼注入之類的漏洞。它專注於文件類型驗證,安全存儲和錯誤處理以增強應用程序安全性。

PHP輸入驗證:最佳實踐。PHP輸入驗證:最佳實踐。Mar 26, 2025 pm 04:17 PM

文章討論了PHP輸入驗證以增強安全性的最佳實踐,重點是使用內置功能,白名單方法和服務器端驗證等技術。

PHP API率限制:實施策略。PHP API率限制:實施策略。Mar 26, 2025 pm 04:16 PM

本文討論了在PHP中實施API速率限制的策略,包括諸如令牌桶和漏水桶等算法,以及使用Symfony/Rate-limimiter之類的庫。它還涵蓋監視,動態調整速率限制和手

php密碼哈希:password_hash和password_verify。php密碼哈希:password_hash和password_verify。Mar 26, 2025 pm 04:15 PM

本文討論了使用password_hash和pyspasswify在PHP中使用密碼的好處。主要論點是,這些功能通過自動鹽,強大的哈希算法和SECH來增強密碼保護

OWASP前10 php:描述並減輕常見漏洞。OWASP前10 php:描述並減輕常見漏洞。Mar 26, 2025 pm 04:13 PM

本文討論了OWASP在PHP和緩解策略中的十大漏洞。關鍵問題包括注射,驗證損壞和XSS,並提供用於監視和保護PHP應用程序的推薦工具。

PHP XSS預防:如何預防XSS。PHP XSS預防:如何預防XSS。Mar 26, 2025 pm 04:12 PM

本文討論了防止PHP中XSS攻擊的策略,專注於輸入消毒,輸出編碼以及使用安全增強的庫和框架。

PHP接口與抽像類:何時使用。PHP接口與抽像類:何時使用。Mar 26, 2025 pm 04:11 PM

本文討論了PHP中接口和抽像類的使用,重點是何時使用。界面定義了無實施的合同,適用於無關類和多重繼承。摘要類提供常見功能

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用