淘宝IP地址库设计-MySQL 튜토리얼-php.cn

집

데이터 베이스

MySQL 튜토리얼

淘宝IP地址库设计

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:59 PM

아니요~을 위한주소타오바오설계선택하다프로젝트

当初选择做这么一个项目，不是为了拷贝一份库自己做服务，也不是为了其他目的，只是单纯的熟悉关于http和mysql方面的知识。下面言归正传。 1、淘宝IP地址库简介此地址库可以根据用户提供的IP地址，快速查询出该IP地址所在的地理信息和地理相关的信息，包括

当初选择做这么一个项目，不是为了拷贝一份库自己做服务，也不是为了其他目的，只是单纯的熟悉关于http和mysql方面的知识。
下面言归正传。

1、淘宝IP地址库简介
此地址库可以根据用户提供的IP地址，快速查询出该IP地址所在的地理信息和地理相关的信息，包括国家、省、市和运营商。
用户也可以主动提交信息来纠错。
主要优势表现为：
（1）地域
覆盖度：94.54% 精确到市级
准确度：96.5% 精确到市级
（2）运营商
覆盖度：93.8%
准确度：暂无统计数据
（3）查询速度
10qps
注：阿里同机房内网，实测速度为4qps左右。
（4）接口
符合REST规范，方便扩展；
使用JSON作为数据格式，方便使用；

2、基础数据
下面介绍一下，需要使用到的一些基础数据项，以及来源。
首先，我们来分析一下淘宝IP地址库的返回数据，
{
"code" : 0, // 请求成功/失败
"data" : {
"country" : "\u4e2d\u56fd", // 国家
"country_id" : "CN", // 国家代码
"area" : "\u534e\u5317", // 地区
"area_id" : "100000", // 地区代码
"region" : "\u5317\u4eac\u5e02", // 省（自治区、直辖市、特别行政区）
"region_id" : "110000", // 省代码
"city" : "\u5317\u4eac\u5e02", // 市（地区、自治州、盟及国家直辖市所属市辖区和县）
"city_id" : "110000", // 市代码
"county" : "", // 县（市辖区、县级市、旗）
"county_id" : "-1", // 县代码
"isp" : "\u4e2d\u56fd\u79d1\u6280\u7f51", // 运营商
"isp_id" : "1000114", // 运营商代码
"ip" : "210.75.225.254" // ipv4/ipv6
}
}
其中：
国家与国家代码，由联合国统计局统一制定。详见：http://zh.wikipedia.org/wiki/ISO_3166-1
地区、省、市、县以及相应的代码，由中华人民共和国国家统计局统一制定，详见：http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201401/t20140116_501070.html
运营商与运营商代码，由国际电联电信标准化部门统一制定，不过已经很久没有维护，不可用。到目前为止，本人也没有找到一份完整的编码表，希望知晓者告知。暂且就以淘宝IP地址库中编码为准。
国家IP地址段，由互联网IP地址分配中心统一管理，在此附上中文版的地址段信息，详见程默的博客，在此表示感谢：http://ipblock.chacuo.net/

3、数据库设计
（1）数据项及命名
国家 country
地区 region
省（自治区、直辖市、特别行政区） province
市（地区、自治州、盟及国家直辖市所属市辖区和县） city
县（市辖区、县级市、旗） county
镇（乡、城镇） town
村（村庄） village
运营商 isp
IP ip

（2）IP表
国家代码 2个字节 CHAR(2)
县代码 6位整形 UINT(20)
村代码 12位整形 UINT(40)
运营商代码 7位整形 UINT(24)
IP地址 4个字节 UINT(32)

（3）国家表
二位字母 2个字节 CHAR(2)
三位字母 3个字节 CHAR(3)
三位数字 3位整形 UINT(10)
ISO英文用名 48个字节 CHAR(48)
中文用名 48个字节 CHAR(48)

（4）地区表
代码 1位整形 UINT(4)
名称 4个字节 CHAR(4)

（5）县（市辖区、县级市、旗）表
代码 6位整形 UINT(20)
名称 48个字节 CHAR(48)

（6）村（村庄）表
代码 12位整形 UINT(40)
名称 48个字节 CHAR(48)

（7）运营商表
代码 7位整形 UINT(24)
名称 48个字节 CHAR(48)

4、数据采集
IP运营商信息来源于各个运营商，IP所属地域信息来源于CNNIC，不过这些信息不太容易拿到完整的。
所以，此处就以淘宝IP地址库为来源。

5、实现方案
使用 nodejs + python 实现，nodejs主要实现网络交互集中的部分，python主要实现网页抓取。数据库使用常见的 mysql。
（1）国家代码抓取
使用 python 实现从 http://zh.wikipedia.org/wiki/ISO_3166-1 地址抓取代码信息，并保存文本country.txt。当然，也可以直接手动拷贝粘贴到文本中。
使用 nodejs 按行读取上一步抓取到的文本，做处理，使用 node-mysql 写入数据库。

（2）县代码抓取
使用 python 实现从 http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201401/t20140116_501070.html 地址抓取代码信息，并保存文本cncounty.txt。当然，也可以直接手动拷贝粘贴到文本中。
使用 nodejs 按行读取上一步抓取到的文本，做处理，使用 node-mysql 写入数据库。

（3）国内IP段抓取
使用 python 实现从 http://ipblock.chacuo.net/ 地址抓取IP段信息，并保存文本cnip.txt。当然，也可以直接手动拷贝粘贴到文本中。

（4）IP地址信息查询
使用 nodejs 读取 cnip.txt 文本，每次解析10000个IP，使用 http 模块从淘宝IP地址库查询结果，并使用 node-mysql 写入数据库。
由于在 nodejs 中 http 处理和 mysql 处理都是异步操作，所以，增加一个缓冲区，保存http请求结果。笔者使用了经典的生产者消费者模型来处理这个问题。

6、结果
为了保证请求的稳定，使用阿里云服务器运行此系统。
实际运行时，每秒可以稳定的请求到5个IP信息，中国目前（截止2014年1月）拥有3.3亿IP，完成全部请求大约需要2.98天。

完成全部存储，数据库大小为22.3GB。

转载请注明来自隐居士（石硕）的CSDN博客：blog.csdn.net/shishuo365 如有疑问请发邮件shishuo365#126.com（将#更换为@）

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

MySQL에 저장된 절차는 무엇입니까?May 01, 2025 am 12:27 AM

저장된 절차는 성능을 향상시키고 복잡한 작업을 단순화하기 위해 MySQL에서 사전 컴파일 된 SQL 문입니다. 1. 성능 향상 : 첫 번째 편집 후 후속 통화를 다시 컴파일 할 필요가 없습니다. 2. 보안 향상 : 권한 제어를 통해 데이터 테이블 액세스를 제한합니다. 3. 복잡한 작업 단순화 : 여러 SQL 문을 결합하여 응용 프로그램 계층 로직을 단순화합니다.

쿼리 캐싱은 MySQL에서 어떻게 작동합니까?May 01, 2025 am 12:26 AM

MySQL 쿼리 캐시의 작동 원리는 선택 쿼리 결과를 저장하는 것이며 동일한 쿼리가 다시 실행되면 캐시 된 결과가 직접 반환됩니다. 1) 쿼리 캐시는 데이터베이스 읽기 성능을 향상시키고 해시 값을 통해 캐시 된 결과를 찾습니다. 2) MySQL 구성 파일에서 간단한 구성, query_cache_type 및 query_cache_size를 설정합니다. 3) SQL_NO_CACHE 키워드를 사용하여 특정 쿼리의 캐시를 비활성화하십시오. 4) 고주파 업데이트 환경에서 쿼리 캐시는 성능 병목 현상을 유발할 수 있으며 매개 변수의 모니터링 및 조정을 통해 사용하기 위해 최적화해야합니다.

다른 관계형 데이터베이스를 통해 MySQL을 사용하면 어떤 장점이 있습니까?May 01, 2025 am 12:18 AM

MySQL이 다양한 프로젝트에서 널리 사용되는 이유에는 다음이 포함됩니다. 1. 고성능 및 확장 성, 여러 스토리지 엔진을 지원합니다. 2. 사용 및 유지 관리, 간단한 구성 및 풍부한 도구; 3. 많은 지역 사회 및 타사 도구 지원을 유치하는 풍부한 생태계; 4. 여러 운영 체제에 적합한 크로스 플랫폼 지원.

MySQL에서 데이터베이스 업그레이드를 어떻게 처리합니까?Apr 30, 2025 am 12:28 AM

MySQL 데이터베이스를 업그레이드하는 단계에는 다음이 포함됩니다. 1. 데이터베이스 백업, 2. 현재 MySQL 서비스 중지, 3. 새 버전의 MySQL 설치, 4. 새 버전의 MySQL 서비스 시작, 5. 데이터베이스 복구. 업그레이드 프로세스 중에 호환성 문제가 필요하며 Perconatoolkit과 같은 고급 도구를 테스트 및 최적화에 사용할 수 있습니다.

MySQL에 사용할 수있는 다른 백업 전략은 무엇입니까?Apr 30, 2025 am 12:28 AM

MySQL 백업 정책에는 논리 백업, 물리적 백업, 증분 백업, 복제 기반 백업 및 클라우드 백업이 포함됩니다. 1. 논리 백업은 MySQLDump를 사용하여 데이터베이스 구조 및 데이터를 내보내며 소규모 데이터베이스 및 버전 마이그레이션에 적합합니다. 2. 물리적 백업은 데이터 파일을 복사하여 빠르고 포괄적이지만 데이터베이스 일관성이 필요합니다. 3. 증분 백업은 이진 로깅을 사용하여 변경 사항을 기록합니다. 이는 큰 데이터베이스에 적합합니다. 4. 복제 기반 백업은 서버에서 백업하여 생산 시스템에 미치는 영향을 줄입니다. 5. AmazonRDS와 같은 클라우드 백업은 자동화 솔루션을 제공하지만 비용과 제어를 고려해야합니다. 정책을 선택할 때 데이터베이스 크기, 가동 중지 시간 허용 오차, 복구 시간 및 복구 지점 목표를 고려해야합니다.

MySQL 클러스터링이란 무엇입니까?Apr 30, 2025 am 12:28 AM

mysqlclusteringenhancesdatabaserobustness andscalabilitydaturedingdataacrossmultiplenodes.itusesthendbenginefordatareplicationandfaulttolerance, highavailability를 보장합니다

MySQL의 성능을 위해 데이터베이스 스키마 설계를 어떻게 최적화합니까?Apr 30, 2025 am 12:27 AM

MySQL에서 데이터베이스 스키마 설계 최적화는 다음 단계를 통해 성능을 향상시킬 수 있습니다. 1. 인덱스 최적화 : 공통 쿼리 열에서 인덱스 생성, 쿼리의 오버 헤드 균형 및 업데이트 삽입. 2. 표 구조 최적화 : 정규화 또는 정상화를 통한 데이터 중복성을 줄이고 액세스 효율을 향상시킵니다. 3. 데이터 유형 선택 : 스토리지 공간을 줄이기 위해 Varchar 대신 Int와 같은 적절한 데이터 유형을 사용하십시오. 4. 분할 및 하위 테이블 : 대량 데이터 볼륨의 경우 파티션 및 하위 테이블을 사용하여 데이터를 분산시켜 쿼리 및 유지 보수 효율성을 향상시킵니다.

MySQL 성능을 어떻게 최적화 할 수 있습니까?Apr 30, 2025 am 12:26 AM

tooptimizemysqlperformance, followthesesteps : 1) 구현 properIndexingToSpeedUpqueries, 2) useExplaintoAnalyzeanDoptimizeQueryPerformance, 3) AdvertServerConfigUrationSettingstingslikeInnodb_buffer_pool_sizeandmax_connections, 4) uspartOflEtOflEtOflestoI

See all articles