ホームページ >ウェブフロントエンド >フロントエンドQ&A >HTMLでエンコード変換を行う方法
HTML エンコード変換: ASCII コード、Unicode、および UTF-8
HTML は、Web ページの作成に使用されるマークアップ言語です。そのテキストには、視覚的な文字だけでなく、テキスト形式を制御するいくつかのマークアップ シンボルも含まれています。構造もスタイルも。これらのマークアップ シンボルは Web ブラウザで解析およびレンダリングされますが、通常の送信と表示を保証するには、バックグラウンドでこれらの文字を正しくエンコードおよびデコードする必要があります。この記事では、HTML で一般的に使用される 3 つのエンコード方式である ASCII、Unicode、UTF-8 を紹介し、それらを相互に変換する方法について説明します。
ASCII (American Standard Code for Information Interchange、American Standard Code for Information Interchange) コードは、最も初期の文字エンコード方式の 1 つで、一般的に 128 個の文字を組み合わせたものです。文字と記号は 7 ビットのバイナリ エンコーディングにマッピングされます。以下の図に示すように、最初の列は ASCII エンコード文字、2 列目は対応する 10 進数値、3 列目はバイナリ コードです。
#ASCII エンコードは、1 バイト (8 ビット) を使用して文字を表すシングルバイト エンコードです。 ASCII 文字セットは 128 文字のみと比較的小さく、複数の言語をサポートしていません。
Unicode は、さまざまな言語の文字と記号を含むグローバル文字セットです。そのため、インターネット上で通信する人々は特定の言語に限定されなくなります。 、ラテンアルファベット、中国語、日本語、ヘブライ語を含むすべての文字を使用できます。 Unicode エンコードでは、UTF-8、UTF-16、UTF-32 などのさまざまな保存方法を使用できます。
Unicode 文字セットには 100,000 を超える文字と記号が含まれているため、文字を表すには複数のバイトが必要です。このうち、UTF-8 エンコーディングは可変長エンコーディング方式であり、文字を表すのに 1 ~ 4 バイトを使用するため、Unicode 文字セット内のすべての文字をさまざまな ASCII コード、Latin-1、その他のエンコーディング方式で表現できます。 。 キャラクター。 UTF-8 エンコードの最初のバイトは、文字を表すために使用されるバイト数を示すために使用され、後続のバイトは 10 から始まります。
次の表は、UTF-8 エンコーディングでの中国語の文字「you」と英語の文字「A」の比較表です:
Character | UTF-8 エンコード |
---|---|
11100110 10001101 10011000 | |
01000001 |
# 将Unicode编码的字符串转换为UTF-8编码 utf8_str = "你好,世界".encode('utf-8') print(utf8_str) # 将UTF-8编码的字符串转换为Unicode编码 unicode_str = utf8_str.decode('utf-8') print(unicode_str)出力結果は次のとおりです。
b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c' 你好,世界この例では、まず encode() メソッドを使用して Unicode でエンコードされた文字列「Hello, World」を UTF-8 でエンコードされたバイト文字列に変換し、それを出力します。次に、decode() メソッドを使用して、この UTF-8 でエンコードされたバイト文字列を Unicode でエンコードされた文字列に変換し、出力します。 結論HTML コードを記述するときは、さまざまな文字や記号を送信用のバイト列に変換するために正しいエンコーディングが使用されていることを確認する必要があります。この記事では、よく使用される 3 つのエンコード方式 (ASCII コード、Unicode、UTF-8) を紹介し、それらの間の相互変換について説明します。実際のプログラミングでは、Python の組み込みの encode() および decode() メソッドを使用して、さまざまな文字セットを変換し、多言語テキスト処理をより適切に処理できます。
以上がHTMLでエンコード変換を行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。