个推push数据统计（爬虫）

该方案基于任务调度框架Gearman,采用Python开发的分布式数据统计系统。

项目的目录结构很简单：

# apple at localhost in ~/Develop/getui [11:24:26]
$ tree
.
├── Browser.py
├── PickleGearman.py
├── SpiderWorker.py
└── countPushNum.py

0 directories, 4 files

我们的Mac Pro Book,Gearman安装并启动：

 # apple at liujingyu.local in ~/Develop/getui [::]

 $ brew install gearman
3 $ gearmand -d -L 127.0.0.1 -p 4307

Python需要安装Gearman、mechanize等库,(pip用于安装常用的包,具体安装见, https://pip.pypa.io/en/latest/installing.html#install-pip)

 # apple at liujingyu.local in ~/Develop/getui [::]

 $ pip install gearman mechanize

workder之间发送，接受Python对象。

 $ cat PickleGearman.py

 #!/usr/bin/env python

 #coding:utf-8

 import pickle

 import gearman

 class PickleDataEncoder(gearman.DataEncoder):

     @classmethod

     def encode(cls, encodable_object):

         return pickle.dumps(encodable_object)

     @classmethod

     def decode(cls, decodable_string):

         return pickle.loads(decodable_string)

 class PickleWorker(gearman.GearmanWorker):

     data_encoder = PickleDataEncoder

 class PickleClient(gearman.GearmanClient):

     data_encoder = PickleDataEncoder

运行图：

8个Spider运行过程图：

Spider代码：

 $ cat SpiderWorker.py

 #!/usr/bin/env python

 from PickleGearman import PickleWorker

 from Browser import Browser

 class GearmanWorker(PickleWorker):

     def on_job_execute(self, current_job):

         return super(GearmanWorker, self).on_job_execute(current_job)

 def SpiderWorker(gearman_worker, gearman_job):

     taskIds = gearman_job.data

     try:

         doc = Browser(taskIds)

     except Exception as e:

         config.logging.info(e)

     return doc

 worker = GearmanWorker(['127.0.0.1:4307'])

 worker.register_task("SpiderWorker", SpiderWorker)

 worker.work()

countPushNum.py代码：

 # apple at localhost in ~/Develop/getui [11:30:38]

 $ cat countPushNum.py

 #!/usr/bin/python

 # -*- coding: utf-8 -*-

 import cookielib

 import json

 import socket

 socket.setdefaulttimeout(10)

 import redis

 import mechanize

 from PickleGearman import PickleClient

 import numpy as np

 currency = 30

 def printEveryGroupMsg(groupSum):

     """docstring for printEveryGroupMsg"""

     print '有效可发送数    实际下发数  收到数'

     print groupSum

 def main():

     gearman_clients = PickleClient(['127.0.0.1:4307'])

     """docstring for main"""

     r1 = redis.Redis(host='xxx.xx.xx.x', port=6379, db=0, password='pasword')

     r2 = redis.Redis(host='xx.xx.xx.xx', port=6379, db=0, password='pasword')

     #总数统计

     yesterdaykeys = '*'+yesterday+':count'

     totalkeys = r1.keys(yesterdaykeys)

     for key in totalkeys:

         print key,r1.get(key)

     totalkeys = r2.keys(yesterdaykeys)

     for key in totalkeys:

         print key,r2.get(key)

     #push数统计

     yesterdaykeys = '*'+yesterday+':taskIds'

     totalkeys = r1.keys(yesterdaykeys)

     for key in totalkeys:

         print key

         taskIds = list(r1.smembers(key))

         everyGroup = []

         jobs = [dict(task='SpiderWorker', data=taskId) for taskId in [taskIds[i:i+currency] for i in range(0, len(taskIds), currency)]]

         for per_jobs in [jobs[i:i+currency] for i in range(0, len(jobs), currency)]:

             completed_requests = gearman_clients.submit_multiple_jobs(per_jobs)

             for current_request in completed_requests:

                 content = current_request.result

                 if len(content) == 3:

                     everyGroup.append(content)

         printEveryGroupMsg(np.sum(everyGroup, 0))

     totalkeys = r2.keys(yesterdaykeys)

     for key in totalkeys:

         print key

         taskIds = list(r2.smembers(key))

         everyGroup = []

         jobs = [dict(task='SpiderWorker', data=taskId) for taskId in [taskIds[i:i+currency] for i in range(0, len(taskIds), currency)]]

         for per_jobs in [jobs[i:i+currency] for i in range(0, len(jobs), currency)]:

             completed_requests = gearman_clients.submit_multiple_jobs(per_jobs)

             for current_request in completed_requests:

                 content = current_request.result

                 if len(content) == 3:

                     everyGroup.append(content)

         printEveryGroupMsg(np.sum(everyGroup, 0))

 if __name__ == '__main__':

     from datetime import date, timedelta

     day = input('请输入时间<昨天请输入1>\n>') or 0

     yesterday = (date.today() - timedelta(day)).strftime('%y%m%d')

     today = (date.today() - timedelta(0)).strftime('%y%m%d')

     main()

抓取模块代码：

 $ cat Browser.py

 #!/usr/bin/env python

 #coding:utf-8

 import mechanize

 import numpy as np

 import cookielib,json

 def Browser(taskIds):

     url = 'http://dev.igetui.com/login.htm'

 # Browser

     br = mechanize.Browser()

 # Cookie Jar

     cj = cookielib.LWPCookieJar()

     br.set_cookiejar(cj)

 # Browser options

     br.set_handle_equiv(True)

     br.set_handle_gzip(True)

     br.set_handle_redirect(True)

     br.set_handle_referer(True)

     br.set_handle_robots(False)

 # Follows refresh 0 but not hangs on refresh > 0

     br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

 # Want debugging messages?

     br.set_debug_http(False)

     br.set_debug_redirects(False)

     br.set_debug_responses(False)

 # User-Agent (this is cheating, ok?)

     br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) \

      Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

 # Open some site, let's pick a random one, the first that pops in mind:

     r = br.open(url)

     br.select_form(name = 'loginForm')

 # 登陆用户名和密码

     br['username'] = 'getui'

     br['password'] = 'password'

     br.submit()

     everyGroup = []

     for taskId in taskIds:

         try:

             tsum = []

             try:

                 home_url = 'http://dev.getui.com/dos/statistics/apiStatistics'

                 response = br.open('https://dev.getui.com/dos/pushRecords/queryApiPushList?curPage=1&appId=16500&taskId=%s' % taskId)

                 html = response.read()

                 result = json.loads(html.strip())

                 if result.has_key('resultList'):

                     resultList = result['resultList']

                     tsum.append(int(resultList[0]['sendNum']))

                     tsum.append(int(resultList[0]['realSendNum']))

                     tsum.append(int(resultList[0]['receiveNum']))

             except Exception as e:

                 print e

             else:

                 print tsum

             if len(tsum) == 3:

                 everyGroup.append(tsum)

         except Exception as e:

             print e

     return np.sum(everyGroup, 0)

个推push数据统计（爬虫）的更多相关文章

个推数据统计产品（个数）iOS集成实践
最近业务方给我们部门提了新的需求,希望能一站式统计APP的几项重要数据.这次我们尝试使用的是个推(之前专门做消息推送的)旗下新推出的产品“个数·应用统计”,根据官方的说法,个推的数据统计产品通过专业的 ...
Android之友盟多渠道打包与数据统计
文章大纲一.多渠道打包与数据统计介绍二.友盟实现多渠道打包实战三.友盟数据统计实战四.项目源码下载五.参考文章一.多渠道打包与数据统计介绍多渠道打包,相信很多同学都知道.在Android ...
Echarts 之三 —— 地市联动数据统计二
一.简介除了是一个地图之外,我们也可以使用多地图进行地市.区县联动数据统计.需求如下:展示整改广东省的地图,并显示统计信息,当点击某一个地市的时候,就显示该地市的地图,并统计该地市区县的数据信息.二 ...
Echarts 之二——地市联动数据统计
一.简介通过地图可以更直观地展示各个地区的统计数据,能够更清楚地进行数据分析.有些场景下,我们不仅仅需要对每个地市进行统计分析.更需要对地市一下的区县进行数据统计,并进行联动.此事我们可以通过Ech ...
【转载】国内网站博客数据统计选免费Google Analytics还是百度统计
[转载]国内网站博客数据统计选免费Google Analytics还是百度统计 Google Analytics谷歌统计是我用的第一个网站统计工具,当然现在也一直在用.Google Analytics ...
PHP+Mysql+jQuery实现中国地图区域数据统计(raphael.js)
使用过百度统计或者cnzz统计的童鞋应该知道,后台有一个地图统计,不同访问量的省份显示的颜色也不一样,今天我将带领大家开发一个这样的案例.上一篇<使用raphael.js绘制中国地图>文章 ...
CI Weekly #16 | 从另一个角度看开发效率：flow.ci 数据统计功能上线
很开心的告诉大家,flow.ci 数据统计功能已正式上线. 进入 flow.ci 控制台,点击「数据分析」按钮,你可以按照时间日期筛选,flow.ci 将多维度地展示「组织与项目」的构建数据指标与模型 ...
Android 推送和统计最优轮循（心跳策略）探究实践
http://blog.csdn.net/sk719887916/article/details/51398416 skay亲笔 Android开发中经常会用到周期性执行一个动作的需求,大的场景有推送 ...
iOS 轻松使用 App 数据统计
想获取用户各项行为数据吗? 想轻松查看用户行为图表吗? 想高效进行 App 运营管理吗? 想,来我带你玩转 App 数据统计.这里我使用专业.轻便的 JAnalytics. 本文内容分为两部分:代码示 ...

随机推荐

原生ajax动态添加数据
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
emgucv 提示缺少emgucv.word
遇到这种问题真的挺恶心的 ,因为条件不同触发这种错误条件也不一样,但是主要原因就是一个那就是你的程序找不到dll了(废话...) 1.首先检查Redistributable 与runtime(在开发环 ...
Elasticsearch系列---多字段搜索
概要本篇介绍一下multi_match的best_fields.most_fields和cross_fields三种语法的场景和简单示例. 最佳字段 bool查询采取"more-match ...
java-随机点名2（新手）
//创建的一个包名. package qige; //导入一个包.import java.util.*; //定义一个类.public class SJdm { //公共静态的主方法. public ...
HTML每日学习笔记（0）
2019.7.14 1.属性为 HTML 元素提供附加信息,总是在 HTML 元素的开始标签中规定. 例子:<h1 align="center"> 对齐方式 <b ...
c++动态内存知识总结与疑问
书名 BOOK TITLE <Primer c++ 第5版> 基本信息 BASICS 阅读进度:第12章动态内存阅读心得 LEARNINGS 在c++中,我知道的有静态内存.栈内存. ...
Spring Cloud 系列之 Alibaba Sentinel 服务哨兵
前文中我们提到 Netflix 中多项开源产品已进入维护阶段,不再开发新的版本,就目前来看是没有什么问题的.但是从长远角度出发,我们还是需要考虑是否有可替代产品使用.比如本文中要介绍的 Alibaba ...
url,解释器，响应器，版本控制，分页
路由控制 -基本路由写法:咱们一直写的
洛谷 P3808 【模板】AC自动机（简单版）题解
原题链接前置知识: 字典树.(会 $\texttt{KMP}$ 就更好) 显然呢,本题用字典树和 $\texttt{KMP}$ 无法解决问题. 所以我们发明了一个东西: \(\textt ...
曹工说Spring Boot源码（26）-- 学习字节码也太难了，实在不能忍受了，写了个小小的字节码执行引擎
曹工说Spring Boot源码(26)-- 学习字节码也太难了,实在不能忍受了,写了个小小的字节码执行引擎写在前面的话相关背景及资源: 曹工说Spring Boot源码(1)-- Bean De ...

个推push数据统计（爬虫）

个推push数据统计（爬虫）的更多相关文章

随机推荐

热门专题