ホームページ  >  記事  >  ウェブフロントエンド  >  HTMLの言語エンコーディングは何ですか?

HTMLの言語エンコーディングは何ですか?

php中世界最好的语言
php中世界最好的语言オリジナル
2017-11-23 16:10:324070ブラウズ

HTML では、エンコーディングにより、ビューアーが IE を通過するときに Web ページが文字化けする可能性があり、div+css の互換性ハックにつながる可能性もあります。一般に、エンコーディングの位置は <head> に配置されます。 ; と 中間。今回はコーディングに関する知識をご紹介します。

通常、この Web ページのエンコーディングは HTML Web ページの と の間に配置されます。

htmlエンコーディングスタイル

charset=utf-8のutf-8を変更することで、次のことができます。 Web ページのエンコーディングを変更します。

通常、CSS ファイルを作成するときは、CSS ファイルの先頭で @charset "utf-8"; を使用して、この CSS ファイルのエンコーディング タイプを定義する必要があります。一般に、HTML ソース コードと CSS ファイルのエンコーディングは統一する必要があります。統一されていないと、CSS ハック、ページの文字化け、ページ レイアウトの混乱などの互換性の問題が発生します。

一般的に使用される HTML エンコード タイプ

中国で一般的に使用される一般的なタイプは、utf-8 と gb2312 です。一般に、これら 2 つのタイプは国内の Web ページのエンコードのニーズを満たすことができます。もちろん、これら 2 つのエンコード タイプは、Web ページを処理し、データ タイプを保存するためにプログラムやデータベースでも使用されます。

UTF-8 には次の機能があります

UCS 文字 U+0000 ~ U+007F (ASCII) はバイト 0x00 ~ 0x7F (ASCII 互換) としてエンコードされます。これは、7 ビット ASCII 文字のみを含むファイルが ASCII でエンコードされることを意味します。 UTF -8 は両方のエンコード方式で同じです。

すべての UCS 文字 > U+007F はマルチバイト文字列としてエンコードされ、各バイトにはフラグ ビットが設定されます。したがって、ASCII バイト (0x00 -0x7F) を一部にすることはできません。

非 ASCII 文字を表すマルチバイト文字列の最初のバイトは常に 0xC0 から 0xFD の範囲内にあり、その文字に含まれるバイト数を示します。範囲は 0x80 から 0xBF です。これにより、再同期が非常に簡単になり、エンコーディングがボーダレスになり、欠落バイトによる影響がほとんどなくなります。

考えられるすべての 231 個の UCS コードをエンコードできます。

UTF-8 でエンコードされた文字の長さは、理論的には最大 6 バイトですが、16 バイトです。 -bit BMP 文字の長さは最大 3 バイトまでです。

Bigendian UCS-4 バイト文字列の配置順序はあらかじめ決められています。

バイト 0xFE と 0xFF は、UTF-8 エンコーディングでは決して使用されません。

GB2312 には次の特性があります。

GB2312 標準には、第 1 レベルの中国語 3755 文字と第 2 レベルの中国語 3008 文字を含む合計 6763 文字が含まれており、同時に GB2312 にはラテン文字、ギリシャ文字、日本語のひらがな、カタカナを含む 682 個の全角文字が含まれています。文字とロシアのキリル文字。

GB2312 の登場は、基本的に、漢字のコンピュータ処理のニーズを満たしています。これに含まれる漢字は、使用頻度の 99.75% をカバーしています。 GB2312 では、収集された漢字が「分割」され、各ゾーンには 94 個の漢字/記号が含まれます。この表現は位置コードとも呼ばれます。

01-09 エリアは特別なシンボルです。

エリア 16 ~ 55 は、ピンインでソートされた第 1 レベルの漢字です。

領域56〜87は、部首/画数ごとに分類された第2レベルの漢字です。

地区 10 ~ 15 および 88 ~ 94 はコード化されていません。

たとえば、「あ」という文字は GB2312 の最初の漢字であり、その位置コードは 1601 です。 GB2312 を使用するプログラムでは、通常、バイト構造は ASCII と互換性を保つために EUC 格納方式を使用します。各漢字と記号は 2 バイトで表されます。最初のバイトは「上位バイト」と呼ばれ、2 番目のバイトは「下位バイト」と呼ばれます。 「上位バイト」は0xA1~0xF7(エリアコード01~87に0xA0を加算)、「下位バイト」は0xA1~0xFE(0xA0に01~94を加算)を使用します。たとえば、単語「Ah」は、ほとんどのプログラムで 0xB0A1 として保存されます。 (ロケーション コードと比較してください: 0xB0=0xA0+16、0xA1=0xA0+1)。

GB2312エンコードにおける漢字市外局番の10進法は176から247、ビットコードは161から255となります。 6763が格納される理由は、市外局番が215であるため、82*94=6768より小さくなります。ビット コードは 250 です。254 の間にはコードが 5 つあり、漢字コードがないため、6768-5=6763 となります。

GB2312 エンコーディングは中国の共通言語として簡単に理解できます。

推奨される文字セットエンコーディング

UTF-8 は、台湾や中国本土などの簡体字中国語と繁体字中国語でこのエンコーディングを使用できます。

エンコーディングによって引き起こされるWebページの互換性エラー

エンコーディングが混在すると、Webページが文字化けし、非互換とも呼ばれます。特にCSS注釈にエンコーディングが混在している場合、CSSハックにつながります。

今後、Webページを作成する際には、Webページのエンコーディングの宣言を忘れないようにしていただければ幸いです。

上記は HTML 言語エンコーディングの知識です。さらに興味深い情報については、php 中国語 Web サイトその他の関連記事をご覧ください。

関連コンテンツ:

DIV に設定する CSS 属性スタイルを知るには?

DIV で CSS スタイルを設定する必要があるのはなぜですか?

htmlの

タグの使い方

以上がHTMLの言語エンコーディングは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。