Nodejs如何处理IE诡异的非英文URL编码-php教程-PHP中文網

首頁

後端開發

php教程

Nodejs如何处理IE诡异的非英文URL编码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:32 PM

encodingnode.jsphpurlencode

众所周知URL里是不能出现除了英文数字和某些特殊符号外的其他字符的，也不能出现汉字。URL会出现汉字也就4种情况：

网址路径(path)中包含汉字：如 https://zh.wikipedia.org/wiki/浏览器
Get方法生成包含汉字的URL：一般是由表单生成的，比如 https://zh.wikipedia.org/w/index.php?search=%E6%B5%8F%E8%A7%88%E5%99%A8
查询字符串(Query String)包含汉字：比如 https://zh.wikipedia.org/w/index.php?search=浏览器 与第二种不同的是直接在浏览器地址栏输入汉字
Ajax调用的URL包含汉字: 比如 <script>url = url + "?q=" +document.getElementById("input").value;</script>

在第一种情况下，各浏览器始终使用UTF-8编码，也就是最后被解析成了 https://zh.wikipedia.org/wiki/%E6%B5%8F%E8%A7%88%E5%99%A8
第二种情况则是根据当前页面编码进行转义，2中的例子用的就是UTF-8
第三种情况就相当诡异了，Chrome和FF都使用UTF-8进行转义，而IE则不是。查了一下，IE用的是操作系统的默认编码，据我所知这个默认编码在不同Windows版本和不同系统语言下都不一样。
第四种情况和第三类似，IE使用系统默认而Chrome和FF使用UTF-8。

于是乎服务器拿到第三和第四种的请求后，根本不知道用的是什么编码。第四种倒容易解决，提前用JavaScript指定编码转义一次就好。但是第三种就...

于是说服务器如何确定在第三种情况发来的发来的查询字符串真正内容？这里用的是Nodejs，可以的话也想听听PHP的解决方案。

试了一个貌似在IE下，用第三种情况搜索Wordpress也会返回404（用错误解码方式的关键词查询数据库没有找到结果）。

=============
突然想到一个点子，能不能从请求header的UA判断是否为IE，如果是再通过Accept-Language来猜测编码...（我开始乱来了....

回复内容：

众所周知URL里是不能出现除了英文数字和某些特殊符号外的其他字符的，也不能出现汉字。URL会出现汉字也就4种情况：

网址路径(path)中包含汉字：如 https://zh.wikipedia.org/wiki/浏览器
Get方法生成包含汉字的URL：一般是由表单生成的，比如 https://zh.wikipedia.org/w/index.php?search=%E6%B5%8F%E8%A7%88%E5%99%A8
查询字符串(Query String)包含汉字：比如 https://zh.wikipedia.org/w/index.php?search=浏览器 与第二种不同的是直接在浏览器地址栏输入汉字
Ajax调用的URL包含汉字: 比如 <script>url = url + "?q=" +document.getElementById("input").value;</script>

于是乎服务器拿到第三和第四种的请求后，根本不知道用的是什么编码。第四种倒容易解决，提前用JavaScript指定编码转义一次就好。但是第三种就...

于是说服务器如何确定在第三种情况发来的发来的查询字符串真正内容？这里用的是Nodejs，可以的话也想听听PHP的解决方案。

试了一个貌似在IE下，用第三种情况搜索Wordpress也会返回404（用错误解码方式的关键词查询数据库没有找到结果）。

=============
突然想到一个点子，能不能从请求header的UA判断是否为IE，如果是再通过Accept-Language来猜测编码...（我开始乱来了....

这个问题和IE没多大关系...
btw: 你后面提到的 通过Accept-Language来猜测编码更是不靠谱.
因为这个请求头是告诉服务器浏览器支持什么样的语言(Language), 与本次提交时参数的编码没有任何关系.

你遇到的问题, 主要是后端的编码识别的问题.

测试代码:
1.html 文档声明内容编码为 utf-8, 且文件保存编码为 utf-8.
不管是在IE还是Chrome,Firefox下, 点按钮提交的汉字均为utf-8编码.

<code>

 
  <meta charset="utf-8">
 

 


<form action="http://www.baidu.com/s" method="GET">
  <input type="text" name="wd" value="浏览器">
  <input type="submit">
  </form>


 

</code>

2.html 文档声明内容编码为 gb2312, 且文件保存编码为 gb2312.
不管是在IE还是Chrome,Firefox下, 点按钮提交的汉字均为gb2312编码.

<code>

 
  <meta charset="gb2312">
 

 


<form action="http://www.baidu.com/s" method="GET">
  <input type="text" name="wd" value="浏览器">
  <input type="submit">
  </form>


 

</code>

上面两种编码提交到 www.baidu.com 进行搜索时, 百度均可识别出来正确的汉字.

GB2312编码时的URL地址: http://www.baidu.com/s?wd=%E4%AF%C0%C0%C6%F7
UTF-8编码时的URL地址: http://www.baidu.com/s?wd=%E6%B5%8F%E8%A7%88%E5%99%A8

认清楚问题之后, 就可以去找正确的答案了:
百度搜索关键字PHP 汉字编码识别(Google被墙,所以只能用百度代替了)
由编码识别遇到问题，思考utf8编码正则表达式（php版本）

将上面的测试代码的action指向下面这个php文件.
你会发现不管是 GB2312 编码提交过来的数据, 还是 UTF-8 编码提交过来的数据, 都可以正确显示所提交的汉字.

<code><?php header('Content-Type: text/html; charset=utf-8');

$wd = $_GET['wd'];

if(checkUtf8($wd) == 0){
    $wd = iconv('gbk', 'utf-8', $wd);
}

echo $wd;



function checkUtf8($str,$extzh=1)
{
    ///utf8编码正则检测函数
    ///copyright qq:8292669
    ///author  程默  http://www.cnblogs.com/chengmo

    //gbk,utf8重叠的范围是：[c0-df][a0-bf] 这块字符在utf8中有，在gbk编码没有对应字符因此向gbk转换会出现"?"号
    if($extzh==1)
    {
        $re='/^([\x01-\x7f]|[\xc0-\xdf][\xa0-\xbf])+$/';  ///这部分字符如果当作utf8处理，在转换为gbk时候就会出现问题"?"号。因此直接返回不为utf8
        if(preg_match($re,$str))  ///公共字符验证成功
        {
            return 0;  ///不是utf8
        }
    }
    $re='/^([\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xf7][\x80-\xbf]{3}|[\xf8-\xfb][\x80-\xbf]{4}|[\xfc-\xfd][\x80-\xbf]{5})+$/';
    return preg_match($re,$str);
}

</code></code>

Nodejs如何处理IE诡异的非英文URL编码

这里是以PHP为例, nodejs 与此类似.

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

您如何防止與會議有關的跨站點腳本（XSS）攻擊？Apr 23, 2025 am 12:16 AM

要保護應用免受與會話相關的XSS攻擊，需採取以下措施：1.設置HttpOnly和Secure標誌保護會話cookie。 2.對所有用戶輸入進行輸出編碼。 3.實施內容安全策略(CSP)限制腳本來源。通過這些策略，可以有效防護會話相關的XSS攻擊，確保用戶數據安全。

您如何優化PHP會話性能？Apr 23, 2025 am 12:13 AM

优化PHP会话性能的方法包括：1.延迟会话启动，2.使用数据库存储会话，3.压缩会话数据，4.管理会话生命周期，5.实现会话共享。这些策略能显著提升应用在高并发环境下的效率。

什麼是session.gc_maxlifetime配置設置？Apr 23, 2025 am 12:10 AM

theSession.gc_maxlifetimesettinginphpdeterminesthelifespanofsessiondata，setInSeconds.1）它'sconfiguredinphp.iniorviaini_set（）.2）abalanceisesneededeededeedeedeededto toavoidperformance andunununununexpectedLogOgouts.3）

您如何在PHP中配置會話名？Apr 23, 2025 am 12:08 AM

在PHP中，可以使用session_name()函數配置會話名稱。具體步驟如下：1.使用session_name()函數設置會話名稱，例如session_name("my_session")。 2.在設置會話名稱後，調用session_start()啟動會話。配置會話名稱可以避免多應用間的會話數據衝突，並增強安全性，但需注意會話名稱的唯一性、安全性、長度和設置時機。

您應該多久再生一次會話ID？Apr 23, 2025 am 12:03 AM

會話ID應在登錄時、敏感操作前和每30分鐘定期重新生成。 1.登錄時重新生成會話ID可防會話固定攻擊。 2.敏感操作前重新生成提高安全性。 3.定期重新生成降低長期利用風險，但需權衡用戶體驗。

如何在PHP中設置會話cookie參數？Apr 22, 2025 pm 05:33 PM

在PHP中設置會話cookie參數可以通過session_set_cookie_params()函數實現。 1)使用該函數設置參數，如過期時間、路徑、域名、安全標誌等；2)調用session_start()使參數生效；3)根據需求動態調整參數，如用戶登錄狀態；4)注意設置secure和httponly標誌以提升安全性。