1. 引言

前一篇介绍了Pandas实现简单的SQL操作,本篇中将主要介绍一些相对复杂一点的操作。为了方便后面实操,先给出一份简化版的设备统计数据:

0	android	NLL	387546520	2099457911
0 ios NLL 52877990 916421755
1 android 魅族 8995958 120369597
1 android 酷派 9915906 200818172
1 android 三星 16500493 718969514
1 android 小米 23933856 290787590
1 android 华为 26706736 641907761
1 ios 苹果 52877990 916421755
2 android 小米-小米4 2786675 55376581
2 android 魅族-m2-note 4642112 130984205
2 android OPPO-A31 4893428 62976997
2 ios 苹果-iPhone-6s 5728609 99948716

其中,第一列表示维度组合编号,第二列表示操作系统类型,第三列为维度值(NLL表示缺失,即第一行、第二行表示操作系统的统计,其余表示厂商或机型),第三列、第四列分别表示UV、PV;且字段之间为\t分隔。读取该文件为DataFrame:

import pandas as pd

df = pd.read_csv(path, names=['id', 'os', 'dim', 'uv', 'pv'], sep='\t')

2. 实战

Add

在原dataframe上,增加一行数据;可通过dataframe的append函数来追加:

import numpy as np
row_df = pd.DataFrame(np.array([['2', 'ios', '苹果-iPad 4', 3287509, 32891811]]), columns=['id', 'os', 'dim', 'uv', 'pv'])
df = df.append(row_df, ignore_index=True)

增加一列数据,则比较简单:

df['time'] = '2016-07-19'

To Dict

关于android、ios的PV、UV的dict:

def where(df, column_name, id_value):
df = df[df[column_name] == id_value]
return df def to_dict(df):
"""
{"pv" or "uv" -> {"os": os_value}}
:return: dict
"""
df = where(df, 'id', 0)
df_dict = df.set_index('os')[['uv', 'pv']].to_dict()
return df_dict

Top

group某列后的top值,比如,android、ios的UV top 2的厂商:

def group_top(df, group_col, sort_col, top_n):
"""
get top(`sort_col`) after group by `group_col`
:param df: dataframe
:param group_col: string, column name
:param sort_col: string, column name
:param top_n: int
:return: dataframe
"""
return df.assign(rn=df.sort_values([sort_col], ascending=False)
.groupby(group_col)
.cumcount() + 1) \
.query('rn < ' + str(top_n + 1)) \
.sort_values([group_col, 'rn'])

全局top值加上group某列后的top值,并有去重:

def top(df, group_col, sort_col, top_n):
"""overall top and group top"""
all_top_df = df.nlargest(top_n, columns=sort_col)
grouped_top_df = group_top(df, group_col, sort_col, top_n)
grouped_top_df = grouped_top_df.ix[:, 0:-1]
result_df = pd.concat([all_top_df, grouped_top_df]).drop_duplicates()
return result_df

排序编号

对某列排序后并编号,相当于给出排序名次。比如,对UV的排序编号:

df['rank'] = df['uv'].rank(method='first', ascending=False).apply(lambda x: int(x))

Left Join

Pandas的left join对NULL的列没有指定默认值,下面给出简单的实现:

def left_join(left, right, on, right_col, default_value):
df = pd.merge(left, right, how='left', on=on)
df[right_col] = df[right_col].map(lambda x: default_value if pd.isnull(x) else x)
return df

自定义

对某一列做较为复杂的自定义操作,比如,厂商的UV占比:

def percentage(part, whole):
return round(100*float(part)/float(whole), 2) os_dict = to_dict(df)
all_uv = sum(os_dict['uv'].values())
df = where(df, 'id', 1)
df['per'] = df.apply(lambda r: percentage(r['uv'], all_uv), axis=1)

重复值

某列的重复值的行:

duplicate = df.duplicated(subset=columns, keep=False)

写MySQL

Pandas的to_sql函数支持Dataframe直接写MySQL数据库。在公司开发时,常常会有办公网与研发网是不通的,Python的sshtunnel模块提供ssh通道,便于入库debug。

import MySQLdb
from sshtunnel import SSHTunnelForwarder with SSHTunnelForwarder(('porxy host', port),
ssh_password='os passwd',
ssh_username='os user name',
remote_bind_address=('mysql host', 3306)) as server:
conn = MySQLdb.connect(host="127.0.0.1", user="mysql user name", passwd="mysql passwd",
db="db name", port=server.local_bind_port, charset='utf8')
df.to_sql(name='tb name', con=conn, flavor='mysql', if_exists='append', index=False)

【Python实战】Pandas:让你像写SQL一样做数据分析(二)的更多相关文章

  1. 【Python实战】Pandas:让你像写SQL一样做数据分析(一)

    1. 引言 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: Da ...

  2. 【Python项目实战】Pandas:让你像写SQL一样做数据分析(一)

    1. 引言 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: Da ...

  3. Pandas:让你像写SQL一样做数据分析

    1. 引言 Pandas是一个开源的Python数据分析库.Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的.只有一个column的DataFrame: Da ...

  4. 【Pandas教程】像写SQL一样用Pandas~

    写在最前 Python在数据分析领域有三个必须需要熟悉的库,分别是pandas,numpy和matplotlib,如果排个优先级的话,我推荐先学pandas. numpy主要用于数组和矩阵的运算,一般 ...

  5. Python 数据分析:让你像写 Sql 语句一样,使用 Pandas 做数据分析

    Python 数据分析:让你像写 Sql 语句一样,使用 Pandas 做数据分析 一.加载数据 import pandas as pd import numpy as np url = ('http ...

  6. Java开发者写SQL时常犯的10个错误

        首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - 导航条 - 首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 我要投稿 更多频道 » - iOS ...

  7. Python利用pandas处理Excel数据的应用

    Python利用pandas处理Excel数据的应用   最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做 ...

  8. python实战:用70行代码写了一个山炮计算器!

    python实战训练:用70行代码写了个山炮计算器! 好了...好了...各位因为我是三年级而发牢骚的各位伙伴们,我第一次为大家插播了python的基础实战训练.这个,我是想给,那些python基础一 ...

  9. python实战博客

    2018-10-31 更新Logging日志记录以及异常捕获 感谢廖大教程.Python实战 直接在闲置的服务器上开发.阿里云Centos 6.8 64位. 1 搭建开发环境 Python 环境是Py ...

随机推荐

  1. Struts2登录小例子

    前面实现了一个数据显示的例子,下面我来实现以下使用Struts2登录 首先是配置不用过多解释 注意名字要和类名保持一致 因为实现的是action这个方法所以需要用action.log来跳转到类里面 解 ...

  2. C#程序代码分析(第三周)

    刚开始看到这段程序,都不知道是什么东西,问过室友才知道是C#程序:但对C#一点都不了解,最基本的项目建设都不会,在室友的帮助下,以及在网上搜了一些资料,勉强算是完成了此次作业吧. using Syst ...

  3. 完美解决 Linux 下 Sublime Text 中文输入

    首先,我参考了好几篇文章,都是蛮不错的,先列出来: sublime-text-imfix:首先推荐这个方法,最简单,但是在我的系统上有些问题.可用这个的强烈推荐用这个 完美解决 Linux 下 Sub ...

  4. CSharpGL(5)解析3DS文件并用CSharpGL渲染

    CSharpGL(5)解析3DS文件并用CSharpGL渲染 我曾经写过一个简单的*.3ds文件的解析器,但是只能解析最基本的顶点.索引信息,且此解析器是仿照别人的C++代码改写的,设计的也不好,不方 ...

  5. spring事务管理器设计思想(一)

    在最近做的一个项目里面,涉及到多数据源的操作,比较特殊的是,这多个数据库的表结构完全相同,由于我们使用的ibatis框架作为持久化层,为了防止每一个数据源都配置一套规则,所以重新实现了数据源,根据线程 ...

  6. Module-Zero之组织单元(OU)管理【新增】

    返回<Module Zero学习目录> 概览介绍 OrganizationUnit实体 OrganizationUnit管理者 公共用例 设置 概览介绍 组织单元(Organization ...

  7. How To Use Goto?

    看到,网上很多人对于goto的询问, 因为本身在工作中经常使用到,所以写下此文, 如有错误, 请指出. 本人写博文的时候主要从事C++工作 对于goto的态度,本人目前成长如下: 学生时代 老师课堂上 ...

  8. 《Node web开发》笔记

    还是因为学习kibana,才开始了解node. Node是一种基于事件驱动的异步系统,基于Chrome的引擎V8. Node中由于大量的使用模块,因此出现了很多开源模块,有点像java社区的样子. 笔 ...

  9. Oracle 把秒转成时分秒格式(hh24:mm:ss);检测字符串是否是数字;字符串转换为数字

    不说废话,贴代码: CREATE OR REPLACE FUNCTION to_time(sec IN NUMBER) RETURN VARCHAR2 IS /*把秒转成时分秒格式 auth lzpo ...

  10. Css概要与选择器,刻度单位

    目录 一.CSS3概要 1.1.特点 1.2.效果演示 1.3.帮助文档与学习 二.选择器 1.1.基础的选择器 1.2.组合选择器 1.3.属性选择器 1.4.伪类 1.5.伪元素 三.特殊性(优先 ...