Heim >Backend-Entwicklung >PHP-Tutorial >制作一个自己的二进制IP库文件_PHP教程
有做过IP归属地查询功能的朋友应该都有听说过纯真IP库,纯真IP库查询类似这样:
若你仅需要根据IP搜索出用户的归属地文字然后显示出来,只要按照该IP库的规则进行二分查找并显示就OK了。(格式详解)
但如果你需要根据IP获取归属地文字描述,然后进一步与自己已有的行政地区数据表关联起来该如何处理呢?
粗看这两种应该是都可以实现,但是效率呢?都很差!特别是面对并发稍高的应用,这两种方式都经不起考验。
为什么不根据纯真IP库(其他IP库也可以)的数据与自己的地区数据关联起来,用自己的地区ID来代替纯真IP库的地区描述,最后制作一个自己的二进制IP库文件呢?
让我们进入正题,看看如何根据纯真IP库数据制作一个自己的二进制IP库文件。
注:本文只说明大致思路,没有详细代码,谢谢
我们需要准备好两部分的数据:
1. 纯真IP库解压后的txt文件。
纯真IP库下载后会有个ip.exe工具,使用上面的解压即可生成。
生成的数据如图1-1,我这个版本有大概444290条。
图1-1
2. 自己的国家省市级联数据表。
这个网上应该比较多,自己进行导入,表结构类似(area_id, area_level, area_name, area_pid),分别代表地区ID,地区等级,地区名称,父地区ID。
当然你也可以自己使用不同的结构,不影响我们这次的处理。
数据已经有了,现在来规划下我们需要生成的IP库的机构。
从标题中就知道,我们需要生成的IP库是二进制的数据包,而不是普通文本文件,那么我们的IP库文件结构应该是怎样的呢?
如图所示:
可以看到,我们的结构是这样的:
IP数据包的结构已经定下来了,后面就是一步步处理了。
1. 逐条读取IP文本文件内容,IP转为32位有符号整数(自定义的ip2long),地区文字分析获取到最终地区
a. IP文本文件每行的规则为:前15字节为IP起始地址,后15字节为IP结束地址,最后为地区文字描述。
b. IP转为32位有符号整数只占4字节,且解决了PHP函数ip2long在32位与64位系统下值不同的问题,新的函数如下:
<span function</span> ip2Long32(<span $ip</span><span ) { </span><span $ip</span> = <span unpack</span>('l', <span pack</span>('l', <span ip2long</span>(<span $ip</span><span ))); </span><span return</span> <span $ip</span>[1<span ]; } </span><span //</span><span end func</span>
当然,你也可以自己开发PHP扩展,详见这边:http://www.cnblogs.com/iblaze/archive/2013/06/02/3112603.html
c. 地区需要获取到各级别地区名称(包括省、市、县、区等,这边国外只保留国家),正则如图:
2. 将获取到的地区信息转为地区ID
这部分处理我不太好描述,因为可能每个人用到的地区都不一样,但是大致原理就是先根据最低级地区名称去查找ID(看实际情况,有可能要去掉市、县之类),若是没有则查找上一级,如此循环,直到获取到地区ID。
若是没有查找到地区ID,则都归入未知。
3. 压缩,压缩后的文件约为5.08M
压缩规则如图,format中的值对应pack中的类型:
这边有个地方必须提示下,由于IP转为有符号32位整数,则128.0.0.0以后的IP都会为负数,所以需要判断负数,并放入我们IP库的前面去,毕竟是使用二分查找,需要为有序数据。
4. 查找IP,使用二分查找,44W条数据最多只需要搜索19次,类似如下:
4. 单个测试,看起来速度还可以
5. 简单压测看效果
a. ab压测,使用本机的ab
b. 测试脚本在linux测试机(普通PC机)
c. 压测脚本如下:
d. 压测语句: ab -n 10000 -c 50 http://192.168.206.71/ipdata.php?type=php
表现还不错。呵呵
结束了,有什么更好的方式可以一起讨论下,谢谢~