Python 实现批量查询IP并解析为归属地

一、背景：
    最近工作中做了一个小功能，目的是为了分析注册用户区域分布和订单的区域分布情况。所以需要将其对应的IP信息解析为归属地，并同步每天同步更新。
线上跑起来效率还是有优化的空间，优化的方向：在调用IP查询API过程可以调整为多线程并行解析IP。后续会更新这方便的调整。
技术：    Pyhton3
         postgreSQL
         env配置文件

附加信息：iP地址查询(iP138官方企业版)：https://market.aliyun.com/products/56928004/cmapi015606.html#sku=yuncode960600002
     .可提供免费的IP查询API.

二、实现思路： 1、 读取数据库IP信息
                2、 调用第三方IP解析API进行解析
                3、 将解析归属地信息存入数据库
三、几点说明： 1、环境信息等参数配置
                2、日志输出
                3、异常处理： 数据库连接异常
                            请求连接查询IP的URL异常：HTTP ERROR 503
                4、json,字典，数组等类型数据输入输出
                5、分页查询并批量解析
                5.功能实现很简单，所以就没有做详细的介绍了。详情可直接看完整代码，有详细的备注。

四、步骤简单介绍：
 针对实现思路的3个步骤写了3个函数，彼此调用执行。
      函数：
      def get_ip_info(table_name):
      def get_ip_area(table_name):
      def ip_write_db(table_name)：
      调用：
      ip_write_db("h_user_stat")

五、关键代码说明：

语法：urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

 # 对从数据库表中出查询的IP进行解析

       querys = 'callback&datatype=jsonp&ip=' + get_ip

       bodys = {}

       url = host + path + '?' + querys

       request = urllib.request.Request(url)

       request.add_header('Authorization', 'APPCODE ' + appcode)

       # 连接url时可能会出现 ERROR: HTTP Error 503: Service Unavailable

       try:

         response = urllib.request.urlopen(request)

       except Exception as e:

         logging.error(e) # 输出异常日志信息

         time.sleep(5)

         response = urllib.request.urlopen(request)

       finally:

         content = response.read()

         ip_area = content.decode('utf8')

         ip_area = json.loads(ip_area)['data'] # json类型转字典类型并取'data'健值

         arr.append([get_ip, ip_area]) # 将结果集存于二元数组

说明：从数据库分页查询固定数量的IP存入数组，并遍历该数组并将解析后的地区信息data健值存于二元数组中。

六、Python代码实现如下:

 # 导入psycopg2包

 import psycopg2, time,datetime,sys

 import json

 import urllib, urllib.request

 import os

 import configparser

 import logging

                      # purpose: 连接数据库读取表IP信息

 def get_ip_info(table_name):

     # 全局变量作用局部作用域

     global pagesize # 每页查询数据条数

     global rows_count

     # 测试1

     starttime_1 = time.time()

     # 建立游标，用来执行数据库操作

     cur = conn.cursor()

     # 执行SQL命令

     cur.execute("SELECT remote_ip FROM (select remote_ip,min(created_at) from " + table_name + " group by remote_ip) h1 where remote_ip is not null and remote_ip <> '' and  not exists (select 1 from d_ip_area_mapping h2 where h1.remote_ip = h2.remote_ip) limit " + str(pagesize) + ";")

     # 获取结果集条数

     rows_count = cur.rowcount

     # print('解析用户IP的总数：' + str(rows_count))

      # 当有未解析的用户的IP，返回元组，否则退出程序

     if rows_count > 0:

       # 获取SELECT返回的元组

       rows =  cur.fetchall()        # all rows in table

       for row in rows:

           tuple = rows

       conn.commit()

       # 关闭游标

       cur.close()

     else:

         tuple = []

     logging.info('每页查询秒数：' + str(time.time() - starttime_1))

     return tuple

     # 调用解析函数

 def get_ip_area(table_name):

   # 内包含用户ID和IP的数组的元组

   tuple = get_ip_info(table_name)  

   # 测试2

   starttime_2 = time.time()

   host = 'http://ali.ip138.com'

   path = '/ip/'

   method = 'GET'

   appcode = '917058e6d7c84104b7cab9819de54b6e'

   arr = []

   for row in tuple:

        get_ip = row[0]

        #get_user = "".join(str(row))

        #get_user = row[0]

             # 对从数据库表中出查询的IP进行解析

        querys = 'callback&datatype=jsonp&ip=' + get_ip

        bodys = {}

        url = host + path + '?' + querys

        request = urllib.request.Request(url)

        request.add_header('Authorization', 'APPCODE ' + appcode)

        # 连接url时可能会出现 ERROR: HTTP Error 503: Service Unavailable

        try:

          response = urllib.request.urlopen(request)

        except Exception as e:

          logging.error(e) # 输出异常日志信息

          time.sleep(5)

          response = urllib.request.urlopen(request)

        finally:

          content = response.read()

          ip_area = content.decode('utf8')

          ip_area = json.loads(ip_area)['data'] # json类型转字典类型并取'data'健值

          arr.append([get_ip, ip_area]) # 将结果集存于二元数组

   logging.info('每页解析秒数：' + str(time.time() - starttime_2))

   return  arr

 def ip_write_db(table_name):

     write_ip = get_ip_area(table_name)  # 内包含用户ID和IP的数组的元组

     # 测试1

     starttime_3 = time.time()

      # 建立游标，用来执行数据库操作

     cur = conn.cursor()

     for row in write_ip:

         # get_user = row[0]  # 获取用户ID

         get_ip = row[0]  # 获取用户对应的IP

         country = row[1][0]  # 获取IP解析后的地区：国家

         province = row[1][1]  # 获取IP解析后的地区：省

         city = row[1][2]  # 获取IP解析后的地区：市

         isp = row[1][3]  # 获取IP解析后的服务提供商

         # 执行SQL命令

         sql = "insert into d_ip_area_mapping(remote_ip,country,province,city,isp,created_at,updated_at,job_id) values (%s,%s,%s,%s,%s,%s,%s,%s);"

         val = [get_ip, country, province, city, isp, time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()),

                time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()),time.strftime("%Y-%m-%d",time.localtime())]

         cur.execute(sql, val)

         conn.commit()

     # 关闭游标

     cur.close()

     logging.info('每页插入秒数：' + str(time.time() - starttime_3))

 # 1.程序开始执行计时

 starttime = time.time()

      # 读取配置文件环境信息 

 # 项目路径

 rootDir = os.path.split(os.path.realpath(__file__))[0]

 ############################### config.env文件路径  #############################################################

 configFilePath = os.path.join(rootDir, 'db_udw.env')

 config = configparser.ConfigParser()

 config.read(configFilePath)

 # 读取数据库环境信息

 db_database = config.get('postgresql','database')

 db_user = config.get('postgresql','user')

 db_password = config.get('postgresql','password')

 db_host = config.get('postgresql','host')

 db_port = config.get('postgresql','port')

 # 读取输出日志路径

 log = config.get('log','log_path')

 # 每页查询数据条数

 pagesize = config.get('page','pagesize') 

 # 读取解析IP条数限制

 ip_num_limit = config.get('ip_num','ip_num_limit') 

 # 配置输出日志格式

 logging.basicConfig(level=logging.DEBUG,#控制台打印的日志级别

                       filename='{my_log_path}/ip_analyzer.log'.format(my_log_path=log),  # 指定日志文件及路径

                       filemode='a',##模式，有w和a，w就是写模式，每次都会重新写日志，覆盖之前的日志 #a是追加模式，默认如果不写的话，就是追加模式

                       format='%(asctime)s - %(pathname)s[line:%(lineno)d] - %(levelname)s: %(message)s'#日志格式

                       )

 ###############################   程序开始执行  #############################################################

 try:

   # 连接到一个给定的数据库

   conn = psycopg2.connect(database=db_database, user=db_user, password=db_password, host=db_host, port=db_port)

 except Exception as e:

   logging.error(e) # 输出连接异常日志信息

 # 返回查询行数 默认为0

 rows_count = 0

  # 用户表IP解析总数

 user_ip_num = 0

  # 订单表IP解析总数

 order_ip_num = 0 

 try:

   # 解析用户表注册IP信息

   while user_ip_num <= eval(ip_num_limit):

      i = 1  # 循环次数

      ip_write_db("h_user_stat")

      user_ip_num = user_ip_num + rows_count*i

      i  = i + 1

      if rows_count == 0 :

          break

   # 解析订单表下单IP信息

   while user_ip_num <= eval(ip_num_limit):

       # 解析用户表注册IP信息

       i = 1  # 循环次数

       ip_write_db("h_order")

       order_ip_num = order_ip_num + rows_count*i

       i = i + 1

       if rows_count == 0 :

          break

 except Exception as e:

   logging.error(e) # 输出异常日志信息

 finally:

   # 关闭数据库连接

   conn.close()

 # 2 程序结束执行计时

   endtime = time.time()

   # print('解析用户IP的总数:' + str(user_ip_num))

   # print('解析订单IP的总数:' + str(order_ip_num))

   # # 打印程序执行总耗时

   # print('解析总耗时秒数：' + str(endtime - starttime))

   logging.info('解析用户IP的总数:' + str(user_ip_num))

   logging.info('解析订单IP的总数:' + str(order_ip_num))

   logging.info('解析总耗时秒数：' + str(endtime - starttime))

环境配置db_udw.envdb_udw.env 如下：

# 数据库环境信息

[postgresql]

database = ahaschool_udw

user = admin

password = 123456

host = 127.0.0.0

port = 5432

# 设置日志文件路径

[log]

log_path = /home/hjmrunning/bi_etl_product/scripts/log

# 每页查询数据条数

[page]

pagesize = 1000  

# IP解析条数限制

[ip_num]

ip_num_limit = 150000

最后

我接触Python时间也不是很久，实现方法可能会有疏漏。如果有什么疑问和见解，欢迎评论区交流。

Python 实现批量查询IP并解析为归属地的更多相关文章

【Python】批量查询-提取站长之家IP批量查询的结果加强版本v3.0
1.工具说明写报告的时候为了细致性,要把IP地址对应的地区给整理出来.500多条IP地址找出对应地区复制粘贴到报告里整了一个上午. 为了下次更好的完成这项重复性很高的工作,所以写了这个小的脚本. 某 ...
【Python】批量查询-提取站长之家IP批量查询的结果v1.0
0 前言写报告的时候为了细致性,要把IP地址对应的地区给整理出来.500多条IP地址找出对应地区复制粘贴到报告里整了一个上午. 为了下次更好的完成这项重复性很高的工作,所以写了这个小的脚本. 1 使 ...
python实现批量ping IP，并将结果写入
最近工作需要,写了一个Python小脚本,分享给大家,因为公司的IP用的差不多了,然后离职人员的IP有没有及时删除,导致没多少IP用了,所以做了一个python脚本跑了跑,清出来一堆ping不通的IP ...
Python + MySQL 批量查询百度收录
做SEO的同学,经常会遇到几百或几千个站点,然后对于收录情况去做分析的情况那么多余常用的一些工具在面对几千个站点需要去做收录分析的时候,那么就显得不是很合适. 在此特意分享给大家一个批量查询百度收录 ...
python爬虫学习之查询IP地址对应的归属地
话不多说,直接上代码吧. import requests def getIpAddr(url): response = requests.get(url) response.encoding=resp ...
提取站长之家IP批量查询
1.工具说明写报告的时候为了细致性,要把IP地址对应的地区给整理出来.500多条IP地址找出对应地区复制粘贴到报告里整了一个上午. 为了下次更好的完成这项重复性很高的工作,所以写了这个小的脚本. 使 ...
利用撒旦搜索引擎查询ip个数，批量下载ip
利用撒旦搜索引擎查询ip个数,批量下载ip,使用语言python3.x 批量测试时,为了方便直接撸下ip,所以用python写了个GUI撒旦利用工具,写的不是很好,但能用,最下面有下载. from t ...
利用Dnspod api批量更新添加DNS解析【python脚本】 - 推酷
利用Dnspod api批量更新添加DNS解析[python脚本] - 推酷 undefined
shell脚本和python脚本实现批量ping IP测试
先建一个存放ip列表的txt文件: [root@yysslopenvpn01 ~]# cat hostip.txt 192.168.130.1 192.168.130.2 192.168.130.3 ...

随机推荐

Chapter 4 Syntax Analysis
Chapter 4 Syntax Analysis This chapter is devoted to parsing methods that are typically used in comp ...
oracle从子表取出前几行数据：
取排序后的前几行,应该用: select * from(select * from test order by stamp desc) where rownum<= 6 (表示排序后取前几行) ...
Tomcat启动Web.xml引用其它XML配置报FileNotFound异常解决方案
如果使用JEECG框架进行Tomcat启动时,如果web.xml引用了其他xml文件,需要在tomcat文件夹里的config文件夹里的context.xml文件里的Context标签里配置xmlBl ...
ionic安卓打包apk--安卓签名
上周项目上线,在网上看了看打包的博客,感觉不是很清晰我自己来总结下首先,我们在项目的根目录下 build android apk 的时候执行的命令一定要是 ionic build android - ...
【Nodejs】记一次图像识别的冒险
笔者的团队最近接到了一个有关图像识别的需求,本来应该由后端团队提供能力,native提供容器,前端团队仅负责一些“外围的形式工作”,不过由于各种各样的原因,最后的结果变成了前端团队在原有工作基础上,承 ...
ACM_输出格式
输出格式 Time Limit: 2000/1000ms (Java/Others) Problem Description: 某水比参加了XX杯,但是他太水,所以三等都木有,所以他决定出一道水题水一 ...
自定义View(10)＊onSizeChanged,onMeasure,onDraw的注意事项及正确写法
1,onSizeChanged 触发: 当view的第一次分配大小或以后大小改变时的产生的事件. 工作: 计算绘制内容的位置,面积等相关值.避免每次在onDraw中计算了. 注意: 计算时不要忘记pa ...
400 Nth Digit 第N个数字
在无限的整数序列 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ...中找到第 n 个数字.注意:n 是正数且在32为整形范围内 ( n < 231).示例 1:输入:3 ...
[转]ASP.NET MVC中实现多个按钮提交的几种方法
本文转自:http://www.cnblogs.com/wuchang/archive/2010/01/29/1658916.html 有时候会遇到这种情况:在一个表单上需要多个按钮来完成不同的功能, ...
ES6:Generator函数(1)
Generator函数是ES6提供的一种异步编程解决方案.它会返回一个遍历器对象 function* helloWorldGenerator(){ yield “hello”; yield “worl ...

Python 实现批量查询IP并解析为归属地

最后

Python 实现批量查询IP并解析为归属地的更多相关文章

随机推荐

热门专题