PHP で Unicode と Utf-8 エンコーディングを変換する方法、unicodeutf-8_PHP チュートリアル-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP で Unicode と Utf-8 エンコーディングを変換する方法、unicodeutf-8_PHP チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 09:45 AM

phpunicodeutf8

PHPはUnicodeとUtf-8エンコーディング間の変換をどのように実現しますか? unicodeutf-8

最近たまたまUnicodeエンコーディングを変換する必要があったので、PHPのライブラリ関数を確認しましたが、それを実現する関数は見つかりませんでした。 Unicode のエンコーディングとデコーディングを変換できます。まあ、それが見つからない場合は、自分で実装してください。。。
Unicode と Utf-8 エンコーディングの違い

Unicode は文字セットであり、UTF-8 は Unicode の 1 つであり、Unicode は固定長であり 2 バイトですが、UTF-8 は中国語文字の場合、UTF-8 の 1 バイトよりも多くのバイトを占有します。少ない。 Unicode は 2 バイトですが、UTF-8 の中国語文字は 3 バイトを占めます。
UTF-8 でエンコードされた文字の長さは理論的には最大 6 バイトですが、16 ビット BMP (Basic Multilingual Plane) 文字の長さは最大 3 バイトのみです。 UTF-8 エンコーディングテーブルを見てみましょう:

U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

xxx の位置は、文字エンコーディング番号のバイナリ表現によって埋められます。右側にある x は、文字エンコーディング番号のマルチバイト文字列を表すためにあまり特別な意味を持ちません。マルチバイト文字列では、最初のバイトの先頭にある「1」の数が文字列全体のバイト数になることに注意してください。最初の行は ASCII エンコードと互換性があるように 0 で始まり、1 バイト、2 行目は 2 バイト文字列、3 行目は中国語などの 3 バイトです。（個人的な意見：実際には、単純に先頭の1の数をバイト数とみなして大丈夫です）

Unicode を Utf-8 に変換する方法

Unicode を UTF-8 に変換するには、もちろん違いが何であるかを知る必要があります。 Unicode のエンコーディングが UTF-8 にどのように変換されるかを見てみましょう。UTF-8 では、文字のバイトが 0x80 (128) 未満の場合、それは 1 バイトを占める ASCII 文字となり、変換は行われません。 UTF-8 は ASCII エンコードと互換性があるため、必要です。 Unicode の漢字「君」のエンコードが「u4F60」の場合、100111101100000 にバイナリ変換し、UTF-8 方式で変換します。 Unicode バイナリから 2 進数を下位から上位まで、一度に 6 ビットずつ取り出すことができます。たとえば、上記のバイナリを以下に示す形式に取り出すことができます。以前のバイナリは、形式に従って埋められます。 8 ビット以上は 0 で埋められます。

ユニコード: 100111101100000 4F60

utf-8: 11100100,10111101,10100000 E4BDA0

上記から、Unicode と UTF-8 の間の変換が直感的にわかります。もちろん、UTF-8 の形式を理解した後は、バイナリ内の対応する位置でそれを取り出すという逆の操作を実行できます。形式に従って変換され、結果として Unicode 文字が得られます (この操作は「置換」によって完了できます)。例えば、上記の「you」の変換では、その値が0x800より大きく0x10000未満であるため、3バイト格納と判断でき、最上位ビットを「12」だけ右にシフトする必要があります。ビットを取得し、3 バイト形式に従って、最高値を取得するには最上位ビットは 11100000 (0xE0 ) または (|) になります。同様に、2桁目を右に「6」ビットシフトし、最上位桁と2桁目の2進数値を左に置き、111111(0x3F)と位置(&)演算を行うことで計算できます。 )、11000000 (0x80) または (|) で合計されます。 3 番目のビットをシフトする必要はなく、最後の 6 ビットを直接取得し (& と 111111 (ox3F))、その後 11000000 (0x80) と OR (|) を演算します。

Utf-8 を Unicode に変換する方法

もちろん、UTF-8からUnicodeへの変換も、UTF-8形式の対応する位置にある2進数を抽出するシフト等によって行われます。上の例では、「you」は 3 バイトであるため、上位ビットから下位ビットまで各バイトを処理する必要があります。 UTF-8 では、「あなた」は 11100100,10111101,10100000 です。上位ビットから始めて、最初のバイト 11100100 から「0100」を取り出します。これは 11111 (0x1F) との AND (&) を取得するだけで、最上位の位置がわかります。毎回 6 桁が取得されるため、12 ビット目より前に置く必要があります。したがって、得られた結果は 12 ビット左にシフトする必要があり、最上位ビットは 0100,000000,000000 になります。 2 番目のビットは「111101」を取り出すため、2 番目のバイト 10111101 と 111111 (0x3F) を AND (&) するだけで済みます。結果を 6 ビット左にシフトし、最上位バイトまたは (|) の結果を取得すると、2 番目のビットが完成し、結果は 0100,111101,000000 になります。同様に、最後の桁は 111111 (0x3F) と直接 AND (&) 演算され、次に前の結果と OR (|) 演算されて、結果 0100,111101,100000 が得られます。

PHP コードの実装:

リーリー

テストしてみました

$utf8_str = '我';

//这是汉字“你”的Unicode编码
$unicode_str = '4f6b';

//输出 6211
echo utf8_str_to_unicode($utf8_str) . "<br/>";

//输出汉字“你”
echo unicode_str_to_utf8($unicode_str);

以上这些转换是针对中文汉字（非ASCII）的测试，并且只支持单个字符【一个完整的utf8字符或是一个完整的Unicode字符】互相转换，希望对大家的学习有所帮助。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHP依存性噴射コンテナ：クイックスタートMay 13, 2025 am 12:11 AM

aphpDependencyInjectionContaineriSATOULTAINATINAGECLASSDEPTINCIES、強化測定性、テスト可能性、および維持可能性。

PHPの依存噴射対サービスロケーターMay 13, 2025 am 12:10 AM

SELECT DEPENTENCINGINOFCENT（DI）大規模なアプリケーションの場合、ServicElocatorは小さなプロジェクトまたはプロトタイプに適しています。 1）DIは、コンストラクターインジェクションを通じてコードのテスト可能性とモジュール性を改善します。 2）ServiceLocatorは、センター登録を通じてサービスを取得します。これは便利ですが、コードカップリングの増加につながる可能性があります。

PHPパフォーマンス最適化戦略。May 13, 2025 am 12:06 AM

phpapplicationscanbeoptimizedforspeedandEfficiencyby：1）enabingopcacheinphp.ini、2）PreparedStatementswithpordatabasequeriesを使用して、3）LoopswithArray_filterandarray_mapfordataprocessing、4）の構成ngincasaSearverseproxy、5）

PHPメールの検証：電子メールが正しく送信されるようにしますMay 13, 2025 am 12:06 AM

PHPemailvalidationinvolvesthreesteps:1)Formatvalidationusingregularexpressionstochecktheemailformat;2)DNSvalidationtoensurethedomainhasavalidMXrecord;3)SMTPvalidation,themostthoroughmethod,whichchecksifthemailboxexistsbyconnectingtotheSMTPserver.Impl

PHPアプリケーションをより速くする方法May 12, 2025 am 12:12 AM

tomakephpapplicationsfaster、followthesesteps：1）useopcodecachinglikeopcacheTostoredscriptbytecode.2）最小化abasequeriesecachingingindexing.3）leveragephp7機能forbettercodeefficiency.4）

PHP Performance Optimization Checklist：今すぐ速度を改善してくださいMay 12, 2025 am 12:07 AM

PoldeSeptepsに続きます

PHP依存性インジェクション：コードのテスト可能性を改善しますMay 12, 2025 am 12:03 AM

依存性注入（DI）は、明示的に推移的な依存関係によりPHPコードのテスト可能性を大幅に改善します。 1）DI分離クラスと特定の実装により、テストとメンテナンスが柔軟になります。 2）3つのタイプのうち、コンストラクターは、状態を一貫性に保つために明示的な式依存性を注入します。 3）DIコンテナを使用して複雑な依存関係を管理し、コードの品質と開発効率を向上させます。

PHPパフォーマンスの最適化：データベースクエリの最適化May 12, 2025 am 12:02 AM

DatabaseQueryoptimizationInpholvesseveralstrategESTOEnhancePerformance.1）selectonlynlynlyndorycolumnStoredatedataTransfer.2）useindexingtospeedupdataretrieval.3）revenmecrycachingtostoreres sultsoffrequent queries.4）

See all articles