最近看了厦门大学数据库实验室林子雨老师的《大数据课程实验案例:网站用户行为分析》,可视化这块是用的R语言,我决定用Python来实现一下。

参考文献 http://dblab.xmu.edu.cn/post/7499/

数据来源 http://pan.baidu.com/s/1nuOSo7B

 # -*- coding: utf-8 -*-
"""
Created on Wed Apr 19 17:26:53 2017 @author: touristlee TO:Don't worry,be happy!
""" import pandas as pd
import numpy as np
import matplotlib.pylab as plt
import matplotlib.patches as mpatches #数据下载地址https://pan.baidu.com/s/1nuOSo7B
#本案例采用的数据集为user.zip,包含了一个大规模数据集raw_user.csv(包含2000万条记录),
#和一个小数据集small_user.csv(只包含30万条记录)。
#小数据集small_user.csv是从大规模数据集raw_user.csv中抽取的一小部分数据。
#之所以抽取出一少部分记录单独构成一个小数据集,是因为,在第一遍跑通整个实验流程时,
#会遇到各种错误,各种问题,先用小数据集测试,可以大量节约程序运行时间。
#等到第一次完整实验流程都顺利跑通以后,就可以最后用大规模数据集进行最后的测试。
#user_id(用户id)
#item_id(商品id)
#behaviour_type(包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4)
#user_geohash(用户地理位置哈希值,有些记录中没有这个字段值,所以后面我们做数据预处理时把这个字段全部删除,用随机生成的省份代替)
#item_category(商品分类)
#time(该记录产生时间) #读取数据
df = pd.read_csv('small_user.csv',encoding='utf-8')
#随机生成一个省份列表
def get_province(x):
youlist = []
for i in x:
maplist = [u'北京',u'天津',u'上海',u'重庆',u'河北',u'山西',u'辽宁',u'吉林',u'黑龙江',u'江苏',u'浙江',u'安徽',u'福建',u'江西',u'山东',u'河南',u'湖北',u'湖南',u'广东',u'海南',u'四川',u'贵州',u'云南',u'陕西',u'甘肃',u'青海',u'台湾',u'内蒙古',u'广西',u'西藏',u'宁夏',u'新疆',u'香港',u'澳门']
youlist.append(maplist[i])
return youlist
#切割字符串
def format_time(x):
return str(x).split(' ')[0]
#格式化
df = df[['user_id','item_id','behavior_type','item_category','time']]
df['province'] = get_province(np.random.randint(0,33,len(df)))
df['time'] = df['time'].map(format_time)
df.columns=['uid','itemid','behavior','itemcagegory','time','province']
df['time']=df['time'].astype('datetime64')
print df.dtypes #查询
#查询有多少条数据
print df.count()
#查询有多少用户
print df.drop_duplicates(['uid']).count()
#查询有多少不重复的数据
print df.drop_duplicates().count() #条件查询
#查询2014年12月10日到2014年12月13日有多少人浏览了商品
print df[('2014-12-13'>=df['time']) & (df['time'] >= '2014-12-10') & (df['behavior']==1)].head()
#每天网站卖出去的商品的个数
df2=df.drop_duplicates()
print df2[df2['behavior']==4].groupby('time').itemcagegory.count()
#取给定时间和给定地点,求当天发出到该地点的货物的数量
print df[(df['time']=='2014-12-12') & (df['province']==u'山西') & (df['behavior']==4)].itemcagegory.count() #根据用户行为分析
#查询一件商品在某天的购买比例或浏览比例
print df[df['time']=='2014-12-11'].itemcagegory.count()
print df[(df['time']=='2014-12-11') & (df['behavior']==4)].itemcagegory.count()
print float(df[(df['time']=='2014-12-11') & (df['behavior']==4)].itemcagegory.count())/float(df[df['time']=='2014-12-11'].itemcagegory.count()) ##查询某个用户在某一天点击网站占该天所有点击行为的比例(点击行为包括浏览,加入购物车,收藏,购买)
print df[(df['uid']==10001082) & (df['time']=='2014-12-12')].behavior.count()
print float(df[(df['uid']==10001082) & (df['time']=='2014-12-12')].behavior.count())/float(df[df['time']=='2014-12-12'].behavior.count()) #用户实时查询分析
#各个地区浏览网站的访问次数 df2=df[df['behavior']==1]
df2=df2.drop_duplicates('uid')
print df2.groupby('province').uid.count() #可视化
#分析各省份消费者对商品的行为(浏览)
fig=plt.figure(figsize=(8,4))
ax1=fig.add_subplot(111)
plt.title(u'behavior by province')
plt.xlabel('province')
plt.ylabel('count')
df2=df[df['behavior']==1]
df2=df2.groupby('province').uid.count()
df2.plot(kind='bar')
#分析消费者对商品的行为 df3=df[['behavior']]
df3=df3.groupby('behavior').behavior.count()
fig2=plt.figure(figsize=(8,4))
ax2=fig2.add_subplot(111)
plt.title(u'behavior')
plt.xlabel('behavior')
plt.ylabel('count')
df3.plot(kind='bar') ##分析被购买最多的商品是哪一类 TOP10
df4=df[['behavior','itemcagegory']]
df4=df4[df4['behavior']==4]
df4=df4.groupby('itemcagegory').itemcagegory.count()
df5=df4.sort_values(ascending=False).head(10)
fig3=plt.figure(figsize=(8,4))
ax3=fig3.add_subplot(1,1,1)
colors=['red','blue','yellow','green','white','black','magenta','cyan','yellowgreen','lightcoral']
ax3.scatter(df5.index,df5.values,c=colors)
plt.xlabel('var')
plt.ylabel('freq')
plt.title('TOP10 category')
plt.legend(handles=[mpatches.Patch(color=x, label=y,joinstyle='round') for (x,y) in zip(colors,df5.index)],bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)
plt.show() ##分析每年的那个月份购买商品的量最多
#先增加一列 月份
df6=df[df['behavior']==4]
df7=df6.copy()
df7['month']=np.array([i.month for i in df7['time']])
df7=df7[['behavior','month']]
df7=df7.groupby('month').count()
df7.plot(kind='bar') ##分析每年的每个月份的行为习惯
df7=df.copy()
df7['month']=np.array([i.month for i in df7['time']])
df7=df7[['behavior','month']]
tmp=df7.groupby(['month','behavior']).behavior.count()
tmp.plot(kind='bar',color=['red','blue','green','yellow']) #分析各省份消费者对商品的行为(收藏)
#分析国内哪个省份的消费者最有购买欲望 即收藏
df8=df[df['behavior']==3]
df8=df8.drop_duplicates('uid')
tmp8=df8.groupby('province').uid.count()
fig8=plt.figure(figsize=(8,4))
ax8=fig.add_subplot(111)
plt.title(u'behavior by province')
plt.xlabel('province')
plt.ylabel('count')
tmp8.plot(kind='bar')

最后一个分析那个省份的消费者最有购买欲望的,原文用的是R语言的地图,matplotlib画地图很麻烦。

我想到的办法是用第三方模块来替代。首先想到的是百度的echarts了,这可以说是百度的良心产品了。

使用这个可以用Django或者web.py,这里我选择最简单的web.py。

代码我上传到了 https://github.com/touristlee/webpy.git

python+matplotlib+web.py的更多相关文章

  1. 【Python】【Web.py】详细解读Python的web.py框架下的application.py模块

    详细解读Python的web.py框架下的application.py模块   这篇文章主要介绍了Python的web.py框架下的application.py模块,作者深入分析了web.py的源码, ...

  2. 【Python】web.py初识学习

    简单而直接的Python web 框架:web.py 2016年11月03日 14:09:08 擒贼先擒王 阅读数:35157更多 个人分类: Web   From:https://www.oschi ...

  3. python使用web.py开发httpserver,解决post请求跨域问题

    使用web.py做http server开发时,遇到postman能够正常请求到数据,但是浏览器无法请求到数据,查原因之后发现是跨域请求的问题. 跨域请求,就是在浏览器窗口中,和某个服务端通过某个 “ ...

  4. mac OS X 配置Python+Web.py+MySQLdb环境

    MAC默认支持Python 2.7所以不用安装. 1.安装pip sudo easy_install pip 2.安装Web.py sudo pip install Web.py 3.安装MySQLd ...

  5. Python Web.py

    安装Web.py root@bt:~# sudo pip install web.py Downloading/unpacking web.py Downloading web.py-0.37.tar ...

  6. python web.py安装使用

    官方首页:http://webpy.org/) 它的源代码非常整洁精干,学习它一方面可以让我们快速了解python语法(遇到看不懂的语法就去google),另一方面可以学习到python高级特性的使用 ...

  7. python学习笔记(十 四)、web.py

    使用web.py 通过python进行网页的编写,下面我们来简单了解一哈web.py 的使用 1 url处理 使用特定的url结构来解析我们发送的请求.如下面所示: urls = ( '/login' ...

  8. python web.py实现简单的get和post请求

    使用web.py框架,实现简单的get和post请求: py文件名:mytest.py import web urls = ( '/', 'hello' ) app = web.application ...

  9. python web py安装与简单使用

    web.py是一个轻量级的python web框架,简单而且功能强大.相对flask和Django,web.py更适合初学者来学习和了解web开发的基础知识.   安装: pip install we ...

随机推荐

  1. unittest模块的常用方法:

    unittest模块的常用方法: assertEqual(a, b)     a == b assertNotEqual(a, b)     a != b assertTrue(x)     bool ...

  2. 一步一步实现基于GPU的pathtracer(一):基础

    出于3D计算机图形学和图形渲染方面的个人兴趣,脑子里便萌生出了自己实现一个渲染器的想法,主要是借助pathtracing这种简单的算法,外加GPU加速来实现,同时也希望感兴趣的朋友们能够喜欢,也欢迎提 ...

  3. 一起学习java

    一.Servlet学习      下面是Servlet一个整体的继承结构       首先说一下Servlet这个接口这个主要包含的有init,service,destroy等方法,这里主要介绍这3个 ...

  4. nodejs - 守护进程 supervisor

    1. 安装   npm -g install supervisor   2. 如果使用了expres框架   需要修改启动方式 到 package.json中的   "scripts&quo ...

  5. 使用wget下载JDK8

    每次去官网下载JDK有点烦 但是直接使用wget 又得同意协议所以 使用如下的wget就好了(注意是64位的哦) 先去官网看一下地址变化 没有如下 :修改后面的下载地址即可 注意哦~ 2.然后使用下面 ...

  6. 咦,好像可以自己做个webapi框架了-IRouteHandler的使用

    当我们学习到一定程度的时候,我们会想要去深入了解代码底层的东西,也更想拥有一个属于自己的框架,当然,博主也正是如此.本文可能成为编写一个webapi框架的开端.有研究MVC框架的朋友会发现,mvc框架 ...

  7. JDBC加载数据库驱动的方式

    JDBC作为数据库访问的规范接口,其中只是定义一些接口.具体的实现是由各个数据库厂商来完成. 一.重要的接口: 1.public interface Driver 每个驱动程序类必须实现的接口.Jav ...

  8. MySql数据库基础操作——数据库、用户的创建,表的制作、修改等

    MySql 是一款使用便捷.轻量级的数据库.因为他体积小.速度快.安装使用简单.开源等优点,目前是使用最广泛的数据库.目前位于Oracle甲骨文公司旗下.那今天我们就来介绍一下数据库的基本操作.具体介 ...

  9. Hybrid App开发之jQuery操作DOM

    前言: 前面学习了JQuery的选择器,今天开始学习新的知识,JQuery操作DOM元素. 元素属性的访问与设置 attr(name) 获取元素属性 attr(name,value) 单个属性设置 a ...

  10. IIS虚拟目录与UNC路径权限初探

    最近在一个项目中涉及到了虚拟目录与UNC路径的问题,总结出来分享给大家. 问题描述 某客户定制化项目(官网),有一个图片上传的功能.客户的Web机器有10台,通过F5负载均衡分摊请求. 假设这10台机 ...