作者:阿宝 

更新:2016-08-31 

来源:彩色世界(https://blog.hz601.org/2016/08/31/taobao-ip-sniffer/index.html) 

简述

当初选择做这么一个项目,不是为了拷贝一份库自己做服务,也不是为了其他目的,只是单纯的熟悉关于http和mysql方面的知识。

下面言归正传。

淘宝IP地址库简介

此地址库可以根据用户提供的IP地址,快速查询出该IP地址所在的地理信息和地理相关的信息,包括国家、省、市和运营商。用户也可以主动提交信息来纠错。

主要优势表现为:

(1)地域

覆盖度:94.54% 精确到市级

准确度:96.5% 精确到市级

(2)运营商

覆盖度:93.8%

准确度:暂无统计数据

(3)查询速度

10qps

注:阿里同机房内网,实测速度为4qps左右。

(4)接口

符合REST规范,方便扩展;

使用JSON作为数据格式,方便使用;

基础数据结构

下面介绍一下,需要使用到的一些基础数据项,以及来源。

首先,我们来分析一下淘宝IP地址库的返回数据,

{
“code” : 0, // 请求成功/失败
"data" : {
“country” : “\u4e2d\u56fd”, // 国家
"country_id" : “CN”, // 国家代码
"area" : “\u534e\u5317”, // 地区
"area_id" : “100000”, // 地区代码
"region" : “\u5317\u4eac\u5e02”, // 省(自治区、直辖市、特别行政区)
“region_id” : “110000”, // 省代码
"city" : “\u5317\u4eac\u5e02”, // 市(地区、自治州、盟及国家直辖市所属市辖区和县)
“city_id” : “110000”, // 市代码
"county" : “”, // 县(市辖区、县级市、旗)
“county_id” : “-1”, // 县代码
"isp" : “\u4e2d\u56fd\u79d1\u6280\u7f51”, // 运营商
"isp_id" : “1000114”, // 运营商代码
"ip" : “210.75.225.254” // ipv4/ipv6
}
}

其中:

国家与国家代码,由联合国统计局统一制定。详见:http://zh.wikipedia.org/wiki/ISO_3166-1

地区、省、市、县以及相应的代码,由中华人民共和国国家统计局统一制定,详见:http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201401/t20140116_501070.html

运营商与运营商代码,由国际电联电信标准化部门统一制定,不过已经很久没有维护,不可用。到目前为止,本人也没有找到一份完整的编码表,希望知晓者告知。暂且就以淘宝IP地址库中编码为准。

国家IP地址段,由互联网IP地址分配中心统一管理,在此附上中文版的地址段信息,详见程默的博客,在此表示感谢:http://ipblock.chacuo.net/

数据库设计

数据项及命名

国家 country

地区 region

省(自治区、直辖市、特别行政区) province

市(地区、自治州、盟及国家直辖市所属市辖区和县) city

县(市辖区、县级市、旗) county

镇(乡、城镇) town

村(村庄) village

运营商 isp

IP ip

IP表

国家代码 2个字节 CHAR(2)

县代码 6位整形 UINT(20)

村代码 12位整形 UINT(40)

运营商代码 7位整形 UINT(24)

IP地址 4个字节 UINT(32)

国家表

二位字母 2个字节 CHAR(2)

三位字母 3个字节 CHAR(3)

三位数字 3位整形 UINT(10)

ISO英文用名 48个字节 CHAR(48)

中文用名 48个字节 CHAR(48)

地区表

代码 1位整形 UINT(4)

名称 4个字节 CHAR(4)

县(市辖区、县级市、旗)表

代码 6位整形 UINT(20)

名称 48个字节 CHAR(48)

村(村庄)表

代码 12位整形 UINT(40)

名称 48个字节 CHAR(48)

运营商表

代码 7位整形 UINT(24)

名称 48个字节 CHAR(48)

数据采集

IP运营商信息来源于各个运营商,IP所属地域信息来源于CNNIC,不过这些信息不太容易拿到完整的。

所以,此处就以淘宝IP地址库为来源。

实现方案

使用 nodejs + python 实现,nodejs主要实现网络交互集中的部分,python主要实现网页抓取。数据库使用常见的 mysql。

国家代码抓取

使用 python 实现从 http://zh.wikipedia.org/wiki/ISO_3166-1 地址抓取代码信息,并保存文本country.txt。当然,也可以直接手动拷贝粘贴到文本中。

使用 nodejs 按行读取上一步抓取到的文本,做处理,使用 node-mysql 写入数据库。

县代码抓取

使用 python 实现从 http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201401/t20140116_501070.html 地址抓取代码信息,并保存文本cncounty.txt。当然,也可以直接手动拷贝粘贴到文本中。

使用 nodejs 按行读取上一步抓取到的文本,做处理,使用 node-mysql 写入数据库。

国内IP段抓取

使用 python 实现从 http://ipblock.chacuo.net/ 地址抓取IP段信息,并保存文本cnip.txt。当然,也可以直接手动拷贝粘贴到文本中。

IP地址信息查询

使用 nodejs 读取 cnip.txt 文本,每次解析10000个IP,使用 http 模块从淘宝IP地址库查询结果,并使用 node-mysql 写入数据库。

由于在 nodejs 中 http 处理和 mysql 处理都是异步操作,所以,增加一个缓冲区,保存http请求结果。笔者使用了经典的生产者消费者模型来处理这个问题。

结果

为了保证请求的稳定,使用阿里云服务器运行此系统。

实际运行时,每秒可以稳定的请求到5个IP信息,中国目前(截止2014年1月)拥有3.3亿IP,完成全部请求大约需要2.98天。

完成全部存储,数据库大小为22.3GB。

淘宝IP地址库采集的更多相关文章

  1. 淘宝IP地址库采集器c#代码

    这篇文章主要介绍了淘宝IP地址库采集器c#代码,有需要的朋友可以参考一下. 最近做一个项目,功能类似于CNZZ站长统计功能,要求显示Ip所在的省份市区/提供商等信息.网上的Ip纯真数据库,下载下来一看 ...

  2. 淘宝IP地址库采集器c#

    个人原创.欢迎转载.转载请注明出处.http://www.cnblogs.com/zetee/articles/3482085.html 采集器概貌,如下: 最近做一个项目,功能类似于CNZZ站长统计 ...

  3. 用淘宝ip地址库查ip

    这是一个通过调用淘宝ip地址库实现ip地址查询的功能类 using System; using System.Collections.Generic; using System.Linq; using ...

  4. Delphi使用JSON解析调用淘宝IP地址库REST API 示例

    淘宝IP地址库:http://ip.taobao.com,里面有REST API 说明. Delphi XE 调试通过,关键代码如下: var IdHTTP: TIdHTTP; RequestURL: ...

  5. 淘宝IP地址库API接口(PHP)通过ip获取地址信息

    淘宝IP地址库网址:http://ip.taobao.com/ 提供的服务包括: 1. 根据用户提供的IP地址,快速查询出该IP地址所在的地理信息和地理相关的信息,包括国家.省.市和运营商. 2. 用 ...

  6. 淘宝IP地址库API地址

    淘宝IP地址库:http://ip.taobao.com/instructions.php   接口说明 1. 请求接口(GET): http://ip.taobao.com/service/getI ...

  7. WordPress使用淘宝IP地址库的API显示评论者的位置信息(二)

    1 淘宝IP地址库的接口说明 在上一篇文章<WordPress使用淘宝IP地址库的API显示评论者的位置信息(一)>中,vfhky使用了新浪工具提供的这个IP接口显示博客评论者的位置信息. ...

  8. 淘宝IP地址库

    淘宝官方ip地址库 http://ip.taobao.com/ 接口说明 1. 请求接口(GET): http://ip.taobao.com/service/getIpInfo.php?ip=[ip ...

  9. 淘宝ip地址库接口会导致TTFB时间变长,网站打开速度变慢

    前一段时间闲来无事发现别人的网站上有显示当前用户城市的功能,就自己也整了一个 这是淘宝ip地址库调用方法 然后问题就出现了,网站打开速度慢的要死 用F12发现是TTFB太慢,然后百度了,发现了问题的原 ...

随机推荐

  1. PKM你的知识需要管理

    有一段时间没有更新技术博客了~,大脑中总感觉有点东西要写,却不知道从哪里开始写~至少写点东西,也算是一个阶段的成长 学习(充电过程).工作(知识变现过程)不是简单重复,永远都是最值得去反思.玩味的事儿 ...

  2. 跳跳棋(9018_1563)(BZOJ_2144)

    题目: Hzwer的跳跳棋是在一条数轴上进行的.棋子只能摆在整点上.每个点不能摆超过一个棋子. 某一天,黄金大神和cjy用跳跳棋来做一个简单的游戏:棋盘上有3颗棋子,分别在a,b,c这三个位置.他们要 ...

  3. 虚函数&多态

    对于经常被问到的虚函数和多态的问题,发现百度百科回答得十分详细,所以自己在百度百科上的解释进行总结 一.虚函数 (1)虚函数简介:在某基类中声明为virtual并在一个或者多个派生类中被重新定义的成员 ...

  4. 自定义程序异常Exception

    /** * 用于循环时的异常定位抛出异常 * 如第i行记录,抛出异常 * @author zhengwei * */ public class MyExcetion extends RuntimeEx ...

  5. Java IO 之 BIO、NIO、AIO

    1.BIO.NIO.AIO解释 Java BIO : 同步并阻塞 (Blocking IO) 一个连接一个线程 即客户端有连接请求时服务器端就需要启动一个线程进行处理,如果这个连接不做任何事情会造成不 ...

  6. Docker进阶使用1

    容器间共享文件 Docker 的容器和外部环境是相对隔离的,并且容器是一次性的,运行结束后并不会有任何的持久化的文件或者数据.所以当我们需要做应用数据的持久化,或者保留应用的日志文件时,我们需要用到 ...

  7. Elasticsearch,Kibana,Logstash,NLog实现ASP.NET Core 分布式日志系统

    Elasticsearch - 简介 Elasticsearch 作为核心的部分,是一个具有强大索引功能的文档存储库,并且可以通过 REST API 来搜索数据.它使用 Java 编写,基于 Apac ...

  8. 【PHP】打印输出var_dump+echo+print_r

    var_dump 判断一个变量的类型与长度如:<?$a = 1;$b = 't';echo var_dump($ta,$tb); // 结果为 int(123) string(3) " ...

  9. 工具 | 代码调试利器fiddle介绍

    我们开发的系统运行在用户的环境上,为了保护我们的代码和提升性能,前端javascript是经过压缩的.压缩的代码难于定位,当前只有chrome对压缩的代码支持格式化,但是变量和函数简化后,定位依然困难 ...

  10. Java并发编程——线程安全及解决机制简介

    简介: 本文主要介绍了Java多线程环境下,可能会出现的问题(线程不安全)以及相应的解决措施.通过本文,你将学习到如下几块知识: 1. 为什么需要多线程(多线程的优势) 1. 多线程带来的问题—线程安 ...