从GoogleClusterData统计每个用户的使用率、平均每次出价

之前将google cluster data导入了Azure上的MySQL数据库，下一步就是对这些数据进行分析，

挖掘用户的使用规律了。

首先，为了加快执行速度，对user，time等加入索引。

然后就可以使用以下代码进行统计了。

import os

import MySQLdb

import time

import thread

def use4ADay(day, users):

    conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="googleclusterdata",charset="utf8")

    cursor = conn.cursor()

    msAday = 24*60*60*1000000

    for user in users:

        user = user[0]

        print user

        use4ADay.user = user

        print 'day %s' %day

        startTime = (day - 1) * msAday

        endTime = day * msAday

        dayCPUUse = 0

        dayMEMUse = 0

        dayDiskUse = 0

        order = "select job_id from job_events where time >= %s and time < %s and user = '%s'" %(startTime, endTime, user)

        print order

        cursor.execute(order)

        job_ids = cursor.fetchall()

        for job_id in job_ids:

            job_id = job_id[0]

            print 'day %s' %day

            order = "select task_index, event_type, cpu_request, memory_request, disk_space_request, time from task_events \

    where time >= %s and time < %s and job_id = %d order by task_index"\

                    %(startTime, endTime, job_id)

            print order

            cursor.execute(order)

            tasks = cursor.fetchall()

            print 'tasks get'

            i = 0

            while i < len(tasks) - 1:

                task = tasks[i]

                if task[1] == 1:

                    task_index = task[0]

                    nextEvent = tasks[i+1]

                    if (nextEvent[1] == 4 or nextEvent[1] == 5) and nextEvent[0] == task_index:

                        taskLife = (nextEvent[5] - tasks[i][5]) / (10.0**6)

                        dayCPUUse += taskLife * task[2]

                        dayMEMUse += taskLife * task[3]

                        dayDiskUse += taskLife * task[4]

                        #print 'task: ', task_index, dayCPUUse, dayMEMUse, dayDiskUse

                i = i+1

            #print 'job: ', job_id, dayCPUUse, dayMEMUse, dayDiskUse

        fOut = open('C:\\userUsageEachDay\\day%d.txt' %day, 'a')

        fOut.write('%s\t%f\t%f\t%f\n' %(user,  dayCPUUse, dayMEMUse, dayDiskUse))

        fOut.close()

    print 'day %d finish' %day

    conn.close()

conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="googleclusterdata",charset="utf8")

cursor = conn.cursor()

#get all user_name

order = "select distinct user from job_events"

print order

cursor.execute(order)

users = cursor.fetchall()

conn.close()

for day in range(1, 30):

    try:

        use4ADay(day, users)

    except:

        print 'day', day, 'failed!!'

        fOut = open('C:\\failed.txt', 'a')

        fOut.write('%s\t%d\t\n' %(use4ADay.user, day))

        fOut.close()

    #print 'starting thread for day %d' %day

    #thread.start_new_thread(use4ADay, (day, users, ) )#use4ADay(2, users)

下一步，是统计每个用户整个月的消费频率，以及每次消费的平均消费量

fDay1 = open('C:\\Usage\\day1.txt')

users = []

for l in fDay1.readlines():

    l = l.split('\t')

    user = l[0]

    users.append(user)

fDay1.close()

#fOut = open('C:\\UseTraceOfAllUsers.txt', 'w')

for user in users:

    useDays = 0

    allPrice = 0

    for day in range(1,30):

        f = open('C:\\Usage\\day%d.txt' %day)

        isFind = False

        for l in f.readlines():

            if l.count(user) > 0:

                l = l.strip()

                l = l.split('\t')

                cpu = float(l[1])

                mem = float(l[2])

                disk = float(l[3])

                money = 1.92*cpu + 15.6*mem + 1.2*disk

                assert(money>=0)

                isFind = True

                break

        if isFind and money != 0:

            useDays += 1

            allPrice += money

        f.close()

    if useDays != 0:

        pass

        #fOut.write('%s\t%s\n' %(str(useDays/29.0), str(allPrice/useDays)))

fOut.close()

最后就可以使用matlab进行画图啦。

x = load('C:\UseTraceOfAllUsers.txt')

plot(x(:,1), x(:,2), 'o');

结果如下：

对平均使用量取个对数的话

x = load('C:\UseTraceOfAllUsers.txt')

plot(x(:,1), log(x(:,2)), 'o');

从GoogleClusterData统计每个用户的使用率、平均每次出价的更多相关文章

使用streaming window函数统计用户不同时间段平均消费金额等指标
场景现在餐厅老板已经不满足仅仅统计历史用户消费金额总数了,他想知道每个用户半年,每个月,每天,或者一小时消费的总额,来店消费的次数以及平均金额. 给出的例子计算的是每5秒,每30秒,每1分钟的用户消 ...
性能分析（3）- 短时进程导致用户 CPU 使用率过高案例
性能分析小案例系列,可以通过下面链接查看哦 https://www.cnblogs.com/poloyy/category/1814570.html 系统架构背景 VM1:用作 Web 服务器,来模拟 ...
使用 Redis 统计在线用户人数
在构建应用的时候, 我们经常需要对用户的一举一动进行记录, 而其中一个比较重要的操作, 就是对在线的用户进行记录. 本文将介绍四种使用 Redis 对在线用户进行记录的方案, 这些方案虽然都可以对在线 ...
Tomcat集群下获取memcached缓存对象数量，统计在线用户数据量
项目需要统计在线用户数量,系统部署在集群环境下,使用会话粘贴的方式解决Session问题.要想得到真实在线用户数,必须是所有节点的总和. 这里考虑使用memcached存放用户登录数据,key为use ...
用HttpSessionListener统计在线用户或做账号在线人数管理
使用HttpSessionListener接口可监听session的创建和失效 session是在用户第一次访问页面时创建在session超时或调用request.getSession().inva ...
拼多多后台开发面试真题：如何用Redis统计独立用户访问量
众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作3年的开发,稍微优秀一点的,都给到30K的Offer,当然,拼多多加班也是出名的,一周上6天班是常态,每天工作时间基本都是超过1 ...
拼多多面试真题：如何用 Redis 统计独立用户访问量！
阅读本文大概需要 2.8 分钟. 作者:沙茶敏碎碎念众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作 3 年的开发,稍微优秀一点的,都给到 30K 的 Offer. 当然,拼 ...
如何用 Redis 统计独立用户访问量
众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作3年的开发,稍微优秀一点的,都给到30K的Offer,当然,拼多多加班也是出名的,一周上6天班是常态,每天工作时间基本都是超过1 ...
ch1_5_1统计最大最小元素的平均比较次数
public class ch1_5_1统计最大最小元素的平均比较次数 { public static void main(String[] args) { // TODO Auto-generate ...

随机推荐

使用tinyproxy进行ip代理
爬虫经常用到ip代理.解决方案无非几种: 1.网络上寻找一些免费代理,优点:免费不限量:缺点:可用性较低,验证费时间费资源.一些有免费代理的网站,西刺代理,站大爷,89免费代理等等,网上可以搜出一大堆 ...
QTP（16）
一.QTP项目(ECShop) 1.ECShop是一个开源免费的一个B2C的电子商务系统,主要用于商家和顾客进行商品交易操作. 2.ECShop分为前台和后台两个子系统: (1)ECShop前台:顾客 ...
Some ArcGIS Tools
在矢量叠加,即将同一区域.同一比例尺的两组或两组以上的多边形要素的数据文件进行叠加产生一个新的数据层,其结果综合了原来图层所具有的属性.矢量叠加操作分为:交集(Intersect).擦除(Erase) ...
zencart用sql将某个产品属性值设为只读和默认
zencart用sql将某个产品属性值设为只读和默认 UPDATE `products_attributes` SET `attributes_display_only` = '1', `attrib ...
hive 权限知识点整理
一,hive 权限授权模型 1.Storage Based Authorization in the Metastore Server基于存储的授权(也就是HDFS的授权模型) - 可以对Metast ...
IntelliJ IDEA 项目同步至GitHub
第一步:下载对应电脑版本的git客户端,安装好,傻瓜式下一步就行. 第二步:在idea里设置github地址和git地址可以点击Test测试一下是否配置正确,如果提示成功,就是配置OK.如果失败,检 ...
vue 创建项目 create和init
vue init是vue-cli2.x的初始化方式,可以使用github上面的一些模板来初始化项目,webpack是官方推荐的标准模板名. 示例:vue init webpack myproject ...
Acwing-204-表达整数的奇怪方式(扩展中国剩余定理)
链接: https://www.acwing.com/problem/content/206/ 题意: 给定2n个整数a1,a2,-,an和m1,m2,-,mn,求一个最小的非负整数x,满足∀i∈[1 ...
robotframework FOR循环
#获取到的ID组装成一个list ${List_ID} Create List ${ID_1} ${ID_2} ${ID_3} ${ID_4} ${ID_5} ... ${ID_6} ${ID_7} ...
07 saltstack生产实例-mysql主从
1.服务部署 .服务部署抽象:功能模块 redis 安装.配置.启动 mysql 安装.配置(my.cnf可以统一目录默认配置可以统一) master: server_id slave: serv ...

从GoogleClusterData统计每个用户的使用率、平均每次出价

从GoogleClusterData统计每个用户的使用率、平均每次出价的更多相关文章

随机推荐

热门专题