utf8编码汉字占多少字节-常见问题-PHP中文网

首页

常见问题

utf8编码汉字占多少字节

青灯夜游

Feb 21, 2023 am 11:40 AM

编码字节utf8

utf8编码汉字占3个字节。在UTF-8编码中，一个中文等于三个字节，一个中文标点占三个字节；而在Unicode编码中，一个中文（含繁体）等于两个字节。UTF-8使用1~4字节为每个字符编码，一个US-ASCIl字符只需1字节编码，带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码。

utf8编码汉字占多少字节

本教程操作环境：windows7系统、Dell G3电脑。

utf-8编码汉字占几个字节？

在UTF-8编码中：一个中文等于三个字节，中文标点占三个字节。

一个英文字符等于一个字节，英文标点占一个字节。

Unicode编码：一个英文等于两个字节，一个中文（含繁体）等于两个字节。中文标点占两个字节，英文标点。

UTF-8使用1~4字节为每个字符编码：

1、一个US-ASCIl字符只需1字节编码（Unicode范围由U+0000~U+007F）。

2、带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码（Unicode范围由U+0080~U+07FF）。

3、其他语言的字符（包括中日韩文字、东南亚文字、中东文字等）包含了大部分常用字，使用3字节编码。

4、其他极少使用的语言字符使用4字节编码。

扩展知识：

UTF-8（8位元，Universal Character Set/Unicode Transformation Format）是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符，而且其编码中的第一个字节仍与ASCII相容，使得原来处理ASCII字符的软件无须或只进行少部分修改后，便可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。

字符集：

UTF-8编码规则：如果只有一个字节则取值为0x00-0x7F。其余字节按长度进行以下拓展：

UTF-8由4种编码方式实现，即UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4 。其中：

UTF8, 16进制编码表
UTF8-1	0x00-0x7F
UTF8-2	0xC2-0xDF 0x80-0xBF
UTF8-3	0xE0 0xA0-0xBF 0x80-0xBF 0xE1-0xEC 0x80-0xBF 0x80-0xBF 0xED 0x80-0x9F 0x80-0xBF 0xEE-0xEF 0x80-0xBF 0x80-0xBF
UTF8-4	0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF 0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80-0xBF 0xF4 0x80-0x8F 0x80-0xBF 0x80-0xBF