## 文字の概要:
js では、中国語は 2 文字を占め、英語は 1 文字を占めます。php では、 GBK/GB2312 エンコードでは、中国語の文字は 2 文字を占め、UTF-8/Unicode エンコードでは、中国語の文字は 3 文字を占めます。 推奨: "PHP チュートリアル >>
php のバイトと文字
PHP では、UTF-8 エンコードでは中国語の文字は 3 バイトを占めますが、gbk エンコードでは 2 バイトしか占めません。バイト。zìfú (文字)
文字は、さまざまな文字スキームやコード ページを使用して表現できる抽象的なエンティティです。たとえば、Unicode UTF-16 エンコーディングは文字を 16 ビット整数のシーケンスとして表現しますが、Unicode UTF-8 エンコーディングは同じ文字を 8 ビット バイトのシーケンスとして表現します。共通言語ランタイムは、Unicode UTF-16 (Unicode Transformation Format、16 ビット エンコード) を使用して文字を表現します。 共通言語ランタイムをターゲットとするアプリケーションは、エンコーディングを使用して文字テーブル形式をネイティブ文字スキームから他のスキームにマップします。アプリケーションはデコードを使用して、文字を非ネイティブ スキームからネイティブ スキームにマッピングします。zìjié (バイト)
バイト (バイト): バイトは、ネットワーク上で情報を送信する (またはハードディスクやメモリに情報を保存する) 単位です。 英語の文字 (大文字と小文字は区別されません) は 1 バイトのスペースを占め、中国語の文字は 2 バイトのスペースを占めます。 記号: 英語の句読点は 1 バイト、中国語の句読点は 2 バイトを占めます。 コンピュータでデジタル単位として使用される 2 進数シーケンスは、通常 8 ビットの 2 進数です。たとえば、ASCII コードはバイトです。このような単位の変換は次のとおりです: エンコーディングを理解する鍵は、文字とバイトの概念を正確に理解することです。これら 2 つの概念は混同されやすいため、ここで区別します。 概念の説明 例文字 人々が使用するマーク、抽象的な意味での記号。 「1」、「中」、「a」、「$」、「¥」、……バイトとは、コンピュータにデータを保存する単位であり、8ビットの2進数であり、非常に重要です。特定の収納スペース。 0x01、0x45、0xFA、……ANSI文字列はメモリ内にあります。「文字」が ANSI エンコードで存在する場合、1 つの文字は 1 バイトまたは複数の単語を使用できます。セクション、その後この文字列を ANSI 文字列またはマルチバイト文字列と呼びます。 "中国語 123" (7 バイトを占有)UNICODE文字列はメモリ内にあります。「文字」が UNICODE のシリアル番号として存在する場合、次のように呼び出します。この種類の文字列は、UNICODE 文字列またはワイドバイト文字列です。 L"中文123"(10 バイトを占有)さまざまな ANSI エンコードによって指定された標準が異なるため、特定のマルチバイト文字列について、どのエンコード ルールを知っておく必要がありますどの「文字」が含まれているかを知るために使用されます。 UNICODE 文字列の場合、環境に関係なく、それが表す「文字」の内容は常に同じです。以上がPHPの漢字は何バイトですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。