重新认识unicode跟utf8编码-php教程-PHP中文网

首页

后端开发

php教程

重新认识unicode跟utf8编码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2016 pm 12:20 PM

gtquotunicode

重新认识unicode和utf8编码

直到今天，准确的说是刚才，我才知道UTF-8编码和Unicode编码是不一样的，是有区别的囧
他们之间是有一定的联系的，看看他们的区别：

<code>UTF-8的长度是不一定的，有可能是1、2、3字节Unicode长度一定，2个字节（USC-2）UTF-8可以和Unicode互相转换</code>

unicode和utf8的关系

Unicode(16进制)	UTF-8(二进制)
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

上面的表格有2个意思，第一个显而易见就是说Unicode和UTF-8字符范围的对应，还有一个可以看出Unicode怎么和UTF-8互相转换：

先说UTF-8到Unicode的转换

UTF-8编码的二进制和上面的3种格式进行匹配，匹配到之后去掉固定位（表格中的非x位置），然后从右到左每8位一组，不够8位左边不领，凑够2个字节16 bits，这16 bits所表示的就是UTF-8对应的Unicode编码，看看下面几个例子：
重新认识unicode跟utf8编码
上面图片中的文字编码格式为UTF-8，可以用WinHex看到其16进制表示

<code>字符	=> UTF-8	  => UTF-8二进制=> 去掉固定位置凑够16位的二进制 => 16进制汉 	=> E6B189 => 11100110 10110001 10001001	=> 01101100 01001001 => 6C49字 	=> E5AD97 => 11100101 10101101 10010111	=> 01011011	01010111 => 5B57#下面是在chrome命令行下面运行的结果'\u6C49'"汉"'\u5B57'"字"#到这里的话，从UTF-8转换到Unicode已经是一件非常容易的事了，看看转换的伪代码读取一个字节，11100110判断该UTF-8字符的格式，属于第三种，3个字节继续读取2个字节得到 11100101 10101101 10010111按照格式去掉固定位     1011011 01010111不够16位，左边补零    01011011 01010111  => 5B57</code>

再看看从Unicode到UTF-8的转换

<code>5B57获取5B57所在的Unicode范围，0800 </code>

说说问题

再说说今天这个问题的起因，从前端输入很多单词，UTF-8格式每个词最多30个字节，因此会在前端和后台分别做验证，javascript用的是Unicode编码，后端程序用的是UTF-8编码，现在的解决办法是这样

前端

<code>function utf8_bytes(str){	var len = 0, unicode;	for(var i = 0; i </code>

后台

<code>#对于GBK字符串$len = ceil(strlen(bin2hex(iconv('GBK', 'UTF-8', $word)))/2);#对于UTF8字符串$len = ceil(strlen(bin2hex($word))/2);</code>

5/21/2015 8:21:53 PM

本文版权归作者iforever(luluyrt＠163.com)所有，未经作者本人同意禁止任何形式的转载，转载文章之后必须在文章页面明显位置给出作者和原文连接，否则保留追究法律责任的权利。

4楼清香白莲素还真: Unicode是字符集，定义每个字符对应的数字。，UTF-8、UTF-16等是编码格式，定义“字符对应的数字”如何以二进制的方式存储。

3楼穆恩: 第一段有错别字

2楼小丸: 博主所说的Unicode其实是utf-16

1楼upfriend: 以前也没怎么注意这个问题，因为一般情况下我都让前后端编码统一，不过博主分析的挺好，赞！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

您什么时候使用特质与PHP中的抽象类或接口？Apr 10, 2025 am 09:39 AM

在PHP中，trait适用于需要方法复用但不适合使用继承的情况。1)trait允许在类中复用方法，避免多重继承复杂性。2)使用trait时需注意方法冲突，可通过insteadof和as关键字解决。3)应避免过度使用trait，保持其单一职责，以优化性能和提高代码可维护性。

什么是依赖性注入容器（DIC），为什么在PHP中使用一个？Apr 10, 2025 am 09:38 AM

依赖注入容器（DIC）是一种管理和提供对象依赖关系的工具，用于PHP项目中。DIC的主要好处包括：1.解耦，使组件独立，代码易维护和测试；2.灵活性，易替换或修改依赖关系；3.可测试性，方便注入mock对象进行单元测试。

与常规PHP阵列相比，解释SPL SplfixedArray及其性能特征。Apr 10, 2025 am 09:37 AM

SplFixedArray在PHP中是一种固定大小的数组，适用于需要高性能和低内存使用量的场景。1)它在创建时需指定大小，避免动态调整带来的开销。2)基于C语言数组，直接操作内存，访问速度快。3)适合大规模数据处理和内存敏感环境，但需谨慎使用，因其大小固定。

PHP如何安全地上载文件？Apr 10, 2025 am 09:37 AM

PHP通过$\_FILES变量处理文件上传，确保安全性的方法包括：1.检查上传错误，2.验证文件类型和大小，3.防止文件覆盖，4.移动文件到永久存储位置。

什么是无效的合并操作员（??）和无效分配运算符（?? =）？Apr 10, 2025 am 09:33 AM

JavaScript中处理空值可以使用NullCoalescingOperator(??)和NullCoalescingAssignmentOperator(??=)。1.??返回第一个非null或非undefined的操作数。2.??=将变量赋值为右操作数的值，但前提是该变量为null或undefined。这些操作符简化了代码逻辑，提高了可读性和性能。

什么是内容安全策略（CSP）标头，为什么重要？Apr 09, 2025 am 12:10 AM

CSP重要因为它能防范XSS攻击和限制资源加载，提升网站安全性。1.CSP是HTTP响应头的一部分，通过严格策略限制恶意行为。2.基本用法是只允许从同源加载资源。3.高级用法可设置更细粒度的策略，如允许特定域名加载脚本和样式。4.使用Content-Security-Policy-Report-Only头部可调试和优化CSP策略。