Nodejs如何处理IE诡异的非英文URL编码-php教程-PHP中文网

首页

后端开发

php教程

Nodejs如何处理IE诡异的非英文URL编码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:32 PM

encodingnode.jsphpurlencode

众所周知URL里是不能出现除了英文数字和某些特殊符号外的其他字符的，也不能出现汉字。URL会出现汉字也就4种情况：

网址路径(path)中包含汉字：如 https://zh.wikipedia.org/wiki/浏览器
Get方法生成包含汉字的URL：一般是由表单生成的，比如 https://zh.wikipedia.org/w/index.php?search=%E6%B5%8F%E8%A7%88%E5%99%A8
查询字符串(Query String)包含汉字：比如 https://zh.wikipedia.org/w/index.php?search=浏览器 与第二种不同的是直接在浏览器地址栏输入汉字
Ajax调用的URL包含汉字: 比如 <script>url = url + "?q=" +document.getElementById("input").value;</script>

在第一种情况下，各浏览器始终使用UTF-8编码，也就是最后被解析成了 https://zh.wikipedia.org/wiki/%E6%B5%8F%E8%A7%88%E5%99%A8
第二种情况则是根据当前页面编码进行转义，2中的例子用的就是UTF-8
第三种情况就相当诡异了，Chrome和FF都使用UTF-8进行转义，而IE则不是。查了一下，IE用的是操作系统的默认编码，据我所知这个默认编码在不同Windows版本和不同系统语言下都不一样。
第四种情况和第三类似，IE使用系统默认而Chrome和FF使用UTF-8。

于是乎服务器拿到第三和第四种的请求后，根本不知道用的是什么编码。第四种倒容易解决，提前用JavaScript指定编码转义一次就好。但是第三种就...

于是说服务器如何确定在第三种情况发来的发来的查询字符串真正内容？这里用的是Nodejs，可以的话也想听听PHP的解决方案。

试了一个貌似在IE下，用第三种情况搜索Wordpress也会返回404（用错误解码方式的关键词查询数据库没有找到结果）。

=============
突然想到一个点子，能不能从请求header的UA判断是否为IE，如果是再通过Accept-Language来猜测编码...（我开始乱来了....

回复内容：

众所周知URL里是不能出现除了英文数字和某些特殊符号外的其他字符的，也不能出现汉字。URL会出现汉字也就4种情况：

网址路径(path)中包含汉字：如 https://zh.wikipedia.org/wiki/浏览器
Get方法生成包含汉字的URL：一般是由表单生成的，比如 https://zh.wikipedia.org/w/index.php?search=%E6%B5%8F%E8%A7%88%E5%99%A8
查询字符串(Query String)包含汉字：比如 https://zh.wikipedia.org/w/index.php?search=浏览器 与第二种不同的是直接在浏览器地址栏输入汉字
Ajax调用的URL包含汉字: 比如 <script>url = url + "?q=" +document.getElementById("input").value;</script>

于是乎服务器拿到第三和第四种的请求后，根本不知道用的是什么编码。第四种倒容易解决，提前用JavaScript指定编码转义一次就好。但是第三种就...

于是说服务器如何确定在第三种情况发来的发来的查询字符串真正内容？这里用的是Nodejs，可以的话也想听听PHP的解决方案。

试了一个貌似在IE下，用第三种情况搜索Wordpress也会返回404（用错误解码方式的关键词查询数据库没有找到结果）。

=============
突然想到一个点子，能不能从请求header的UA判断是否为IE，如果是再通过Accept-Language来猜测编码...（我开始乱来了....

这个问题和IE没多大关系...
btw: 你后面提到的 通过Accept-Language来猜测编码更是不靠谱.
因为这个请求头是告诉服务器浏览器支持什么样的语言(Language), 与本次提交时参数的编码没有任何关系.

你遇到的问题, 主要是后端的编码识别的问题.

测试代码:
1.html 文档声明内容编码为 utf-8, 且文件保存编码为 utf-8.
不管是在IE还是Chrome,Firefox下, 点按钮提交的汉字均为utf-8编码.

<code>

 
  <meta charset="utf-8">
 

 


<form action="http://www.baidu.com/s" method="GET">
  <input type="text" name="wd" value="浏览器">
  <input type="submit">
  </form>


 

</code>

2.html 文档声明内容编码为 gb2312, 且文件保存编码为 gb2312.
不管是在IE还是Chrome,Firefox下, 点按钮提交的汉字均为gb2312编码.

<code>

 
  <meta charset="gb2312">
 

 


<form action="http://www.baidu.com/s" method="GET">
  <input type="text" name="wd" value="浏览器">
  <input type="submit">
  </form>


 

</code>

上面两种编码提交到 www.baidu.com 进行搜索时, 百度均可识别出来正确的汉字.

GB2312编码时的URL地址: http://www.baidu.com/s?wd=%E4%AF%C0%C0%C6%F7
UTF-8编码时的URL地址: http://www.baidu.com/s?wd=%E6%B5%8F%E8%A7%88%E5%99%A8

认清楚问题之后, 就可以去找正确的答案了:
百度搜索关键字PHP 汉字编码识别(Google被墙,所以只能用百度代替了)
由编码识别遇到问题，思考utf8编码正则表达式（php版本）

将上面的测试代码的action指向下面这个php文件.
你会发现不管是 GB2312 编码提交过来的数据, 还是 UTF-8 编码提交过来的数据, 都可以正确显示所提交的汉字.

<code><?php header('Content-Type: text/html; charset=utf-8');

$wd = $_GET['wd'];

if(checkUtf8($wd) == 0){
    $wd = iconv('gbk', 'utf-8', $wd);
}

echo $wd;



function checkUtf8($str,$extzh=1)
{
    ///utf8编码正则检测函数
    ///copyright qq:8292669
    ///author  程默  http://www.cnblogs.com/chengmo

    //gbk,utf8重叠的范围是：[c0-df][a0-bf] 这块字符在utf8中有，在gbk编码没有对应字符因此向gbk转换会出现"?"号
    if($extzh==1)
    {
        $re='/^([\x01-\x7f]|[\xc0-\xdf][\xa0-\xbf])+$/';  ///这部分字符如果当作utf8处理，在转换为gbk时候就会出现问题"?"号。因此直接返回不为utf8
        if(preg_match($re,$str))  ///公共字符验证成功
        {
            return 0;  ///不是utf8
        }
    }
    $re='/^([\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xf7][\x80-\xbf]{3}|[\xf8-\xfb][\x80-\xbf]{4}|[\xfc-\xfd][\x80-\xbf]{5})+$/';
    return preg_match($re,$str);
}

</code></code>

Nodejs如何处理IE诡异的非英文URL编码

这里是以PHP为例, nodejs 与此类似.

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

PHP依赖注入容器：快速启动May 13, 2025 am 12:11 AM

aphpdepentioncontiveContainerIsatoolThatManagesClassDeptions，增强codemodocultion，可验证性和Maintainability.itactsasaceCentralHubForeatingingIndections，因此reducingTightCightTightCoupOulplingIndeSingantInting。

PHP中的依赖注入与服务定位器May 13, 2025 am 12:10 AM

选择DependencyInjection(DI)用于大型应用，ServiceLocator适合小型项目或原型。1)DI通过构造函数注入依赖，提高代码的测试性和模块化。2)ServiceLocator通过中心注册获取服务，方便但可能导致代码耦合度增加。

PHP性能优化策略。May 13, 2025 am 12:06 AM

phpapplicationscanbeoptimizedForsPeedAndeffificeby：1）启用cacheInphp.ini，2）使用preparedStatatementSwithPdoforDatabasequesies，3）3）替换loopswitharray_filtaray_filteraray_maparray_mapfordataprocrocessing，4）conformentnginxasaseproxy，5）

PHP电子邮件验证：确保正确发送电子邮件May 13, 2025 am 12:06 AM

phpemailvalidation invoLvesthreesteps：1）格式化进行regulareXpressecthemailFormat; 2）dnsvalidationtoshethedomainhasavalidmxrecord; 3）

如何使PHP应用程序更快May 12, 2025 am 12:12 AM

tomakephpapplicationsfaster，关注台词：1）useopcodeCachingLikeLikeLikeLikeLikePachetoStorePreciledScompiledScriptbyTecode.2）MinimimiedAtabaseSqueriSegrieSqueriSegeriSybysequeryCachingandeffeftExting.3）Leveragephp7 leveragephp7 leveragephp7 leveragephpphp7功能forbettercodeefficy.4）

PHP性能优化清单：立即提高速度May 12, 2025 am 12:07 AM

到ImprovephPapplicationspeed，关注台词：1）启用opcodeCachingwithapCutoredUcescriptexecutiontime.2）实现databasequerycachingusingpdotominiminimizedatabasehits.3）usehttp/2tomultiplexrequlexrequestsandredececonnection.4 limitsclection.4.4

PHP依赖注入：提高代码可检验性May 12, 2025 am 12:03 AM

依赖注入（DI）通过显式传递依赖关系，显着提升了PHP代码的可测试性。 1）DI解耦类与具体实现，使测试和维护更灵活。 2）三种类型中，构造函数注入明确表达依赖，保持状态一致。 3）使用DI容器管理复杂依赖，提升代码质量和开发效率。

PHP性能优化：数据库查询优化May 12, 2025 am 12:02 AM

databasequeryOptimizationinphpinvolVolVOLVESEVERSEVERSTRATEMIESOENHANCEPERANCE.1）SELECTONLYNLYNESSERSAYCOLUMNSTORMONTOUMTOUNSOUDSATATATATATATATATATATRANSFER.3）

See all articles