Home >Web Front-end >HTML Tutorial >获取网页源码问题_html/css_WEB-ITnose
gzip 解密
问题:这个。。。。
这个。。。。
我是良民
结尾是0\r\n\r\n的话,可能是chunked,你去了解一下chunked的数据结构
一般是
长度1\r\n + 数据块1\r\n + 长度2\r\n + 数据块2\r\n + ... + 0\r\n\r\n
长度就是对应数据块不包括结尾\r\n部分的字节数(16进制),注意每块的长度不一定相同
把所有数据块切出来,拼接就是完整的文件
rfc2616标准有这方面的详细说明
例如网易首页 http://www.163.com
如果你发送gzip过去返回的就是 gzip+chunked
如果你发送*过去返回的就是html+chunked
再举个例子吧
\x04 \r\n abcd \r\n \x10 \r\n efghijklmnopqrst \r\n 0 \r\n\r\n
最后解chunked得到的就是:
abcdefghijklmnopqrst
再举个例子吧
\x04\r\nabcd\r\n\x10\r\nefghijklmnopqrst\r\n0\r\n\r\n
最后解chunked得到的就是:
abcdefghijklmnopqrst
我得到一个数据包,看那个格式应该是gzip。但是全是16进制。那么我该怎么还原这个网页呢?总是失败。谢谢你了。
怎么还原当然需要编程语言里面的解压模块,不然就是自己研究gzip算法来解了,我没这个本事
gzip开头是 1F 8B 08,如果你的数据开头是这个就直接解压,解压错误的话应该是未接收完整
可以通过header里面的content-length判断是否完整
如果结尾是 30 0D 0A 0D 0A 那就是chunked按上面我说的先解出数据部分,再判断是否一个gzip
chunked数据因为不定长,所以header没有长度说明,而是靠结尾判断是否完整
怎么还原当然需要编程语言里面的解压模块,不然就是自己研究gzip算法来解了,我没这个本事
gzip开头是 1F 8B 08,如果你的数据开头是这个就直接解压,解压错误的话应该是未接收完整
可以通过header里面的content-length判断是否完整
如果结尾是 30 0D 0A 0D 0A 那就是chunked按上面我说的先解出数据部分,再判断是否一个……
谢谢你啦。我研究研究一下。