ホームページ  >  記事  >  バックエンド開発  >  PHPの漢字は何バイトですか?

PHPの漢字は何バイトですか?

藏色散人
藏色散人オリジナル
2019-09-16 11:26:447167ブラウズ

PHPの漢字は何バイトですか?

## 文字の概要:

js では、中国語は 2 文字を占め、英語は 1 文字を占めます。php では、

GBK/GB2312 エンコードでは、中国語の文字は 2 文字を占め、UTF-8/Unicode エンコードでは、中国語の文字は 3 文字を占めます。

推奨: "

PHP チュートリアル >>

php のバイトと文字

PHP では、UTF-8 エンコードでは中国語の文字は 3 バイトを占めますが、gbk エンコードでは 2 バイトしか占めません。バイト。

zìfú (文字)

文字は、さまざまな文字スキームやコード ページを使用して表現できる抽象的なエンティティです。たとえば、Unicode UTF-16 エンコーディングは文字を 16 ビット整数のシーケンスとして表現しますが、Unicode UTF-8 エンコーディングは同じ文字を 8 ビット バイトのシーケンスとして表現します。共通言語ランタイムは、Unicode UTF-16 (Unicode Transformation Format、16 ビット エンコード) を使用して文字を表現します。

共通言語ランタイムをターゲットとするアプリケーションは、エンコーディングを使用して文字テーブル形式をネイティブ文字スキームから他のスキームにマップします。アプリケーションはデコードを使用して、文字を非ネイティブ スキームからネイティブ スキームにマッピングします。

zìjié (バイト)

バイト (バイト): バイトは、ネットワーク上で情報を送信する (またはハードディスクやメモリに情報を保存する) 単位です。

英語の文字 (大文字と小文字は区別されません) は 1 バイトのスペースを占め、中国語の文字は 2 バイトのスペースを占めます。

記号: 英語の句読点は 1 バイト、中国語の句読点は 2 バイトを占めます。

コンピュータでデジタル単位として使用される 2 進数シーケンスは、通常 8 ビットの 2 進数です。たとえば、ASCII コードはバイトです。このような単位の変換は次のとおりです:

エンコーディングを理解する鍵は、文字とバイトの概念を正確に理解することです。これら 2 つの概念は混同されやすいため、ここで区別します。

概念の説明 例

文字 人々が使用するマーク、抽象的な意味での記号。 「1」、「中」、「a」、「$」、「¥」、……

バイトとは、コンピュータにデータを保存する単位であり、8ビットの2進数であり、非常に重要です。特定の収納スペース。 0x01、0x45、0xFA、……

ANSI

文字列はメモリ内にあります。「文字」が ANSI エンコードで存在する場合、1 つの文字は 1 バイトまたは複数の単語を使用できます。セクション、その後この文字列を ANSI 文字列またはマルチバイト文字列と呼びます。 "中国語 123"

(7 バイトを占有)

UNICODE

文字列はメモリ内にあります。「文字」が UNICODE のシリアル番号として存在する場合、次のように呼び出します。この種類の文字列は、UNICODE 文字列またはワイドバイト文字列です。 L"中文123"

(10 バイトを占有)

さまざまな ANSI エンコードによって指定された標準が異なるため、特定のマルチバイト文字列について、どのエンコード ルールを知っておく必要がありますどの「文字」が含まれているかを知るために使用されます。 UNICODE 文字列の場合、環境に関係なく、それが表す「文字」の内容は常に同じです。

以上がPHPの漢字は何バイトですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。