python中数据分析常用函数整理

一. apply函数

作用：对 DataFrame 的某行/列应用函数之后，Apply 返回一些值。函数既可以使用默认的，也可以自定义。注意：在第二个输出中应用 head() 函数，因为它包含了很多行。

#创建一个新函数

def num_missing(x):

  return sum(x.isnull())

#应用每一列

print "Missing values per column:"

print data.apply(num_missing, axis=0) #axis=0 defines that function is to be applied on each column

#应用每一行

print "\nMissing values per row:"

print data.apply(num_missing, axis=1).head() #axis=1 defines that function is to be applied on each row

二. loc函数

作用：选择属性子集

subSalesDf=salesDf.loc[0:4,'购药时间':'销售数量']

三. rename函数

作用：列重命名

colNameDict = {'购药时间':'销售时间'}                  #将‘购药时间’改为‘销售时间’

salesDf.rename(columns = colNameDict,inplace=True)

四. dropna函数

作用：删除缺失值，how='any'意为在给定的任何一列中有缺失值就删除

salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any') #删除列（销售时间，社保卡号）中为空的行

五. pd.to_datetime函数

作用：字符串类型的数据转换成日期格式。传入的格式是原始数据的日期格式——format='%Y-%m-%d'固定写法：Y表示年、m表示月、d表示日。

salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],

                                    format='%Y-%m-%d',

                                    errors='coerce')

errors='coerce'：如果原始数据不符合日期的格式，转换后的值为空值NaT。所以转换之后我们还要运行一次删除空值的代码，因为不符合格式的日期被转变为了空值需要删除。

salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')

六. pd.sort_values

作用：对数据进行排序，by表示按那几列进行排序，ascending=True 表示升序排列，ascending=False表示降序排列

salesDf=salesDf.sort_values(by='销售时间',     #按销售日期进行升序排列

                    ascending=True)

七. reset_index函数

作用：生成从0到N按顺序的索引值

salesDf=salesDf.reset_index(drop=True)

八. describe函数

作用：查看数据框中所有数据每列的描述统计信息：（count：总数，mean：平均数，std：标准差，min：最小值，25%：下四分位数，50%：中位数，75%：上四分位数，max：最大值）

salesDf.describe()

九. 删除异常值

作用：假设最小值出现了小于0的情况，分析应该是记录过程中出现错误所致。

第一步：设置查询条件，这一步返回True和false

querySer=salesDf.loc[:,'销售数量']>0

第二步：应用查询条件

salesDf=salesDf.loc[querySer,:]

十. drop_duplicates函数

作用：将重复的数据删除，同一个人发生的所有消费算作一次消费，根据列名（销售时间，社区卡号），如果这两个列值同时相同，只保留1条

kpi1_Df=salesDf.drop_duplicates(

    subset=['销售时间', '社保卡号']

)

十一. groupby

作用：根据某一列分组

gb=groupDf.groupby(groupDf.index.month)

对分组后的数据应用函数

mounthDf=gb.sum()

十二. 不适=使用for循环的列表生成器

作用:当一个列表中的元素是由另外一个列表中对应元素经过运算得到时，可以省去for循环，适用一行代码生成模型

x = [2,3,4,5]

out = [item*2 for item in x]

print(out)

十三. Lambda 表达式

作用：不使用def关键字，也没有return。Lambda 表达式创造的函数和普通的 def 构建的函数没什么不同，只不过函数体只有单独一个表达式而已。

double=lambda x: x*2 #double是函数名，x是参数

print(double(3))

十四. map 和 filter 函数

1. map

作用：可以与Lambda表达式同时使用，map() 函数接收一个列表，和一个函数（可以是Lambda表达式），它对列表里的每个元素调用一个函数进行处理，再将结果放进一个新列表里。

result=list(map(double,x))

print(result)

2. filter

作用：它接收一个列表，和一个规则函数，在对列表里的每个元素调用这个规则函数之后，它把所有返回值为假的元素从列表中剔除，然后返回这个过滤后的子列表。

result2=list(filter(lambda a:a>4,x))

十五. arrange 函数

作用：arange() 函数按照指定的步长返回一个等差数列。除开始和结束值之外，你还可以自定义步长和数据类型。请注意，给定的结束值参数是不会被包含在结果内的。

result= np.arange(start,stop,step)

十六. linspace 函数

作用：将给定区间进行若干等分以后的等分点组成的数列。所以你传入的参数包括开始值、结束值，以及具体多少等分。linspace() 将这个区间进行等分后，把开始值、结束值和每个等分点都放进一个 NumPy 数组里。这在做数据可视化以及绘制坐标轴的时候都很有用。

result4=np.linspace(2.0,3.0,num=5)

十七. 矩阵合并函数

1.Concat

作用：把一个或多个数据表按行（或列）的方向简单堆叠起来（看你传入的 axis 参数是 0 还是 1 咯）。

2. merge

作用：merge() 将会以用户指定的某个名字相同的列为主键进行对齐，把两个或多个数据表融合到一起。

3. join

join()和 merge() 很相似，只不过 join() 是按数据表的索引进行对齐，而不是按某一个相同的列。当某个表缺少某个索引的时候，对应的值为空（NaN）。

十八. pivot_table 函数

作用：它能帮你对一个数据表进行格式化，并输出一个像 Excel 工作表一样的表格。实际使用中，透视表将根据一个或多个键对数据进行分组统计，将函数传入参数 aggfunc 中，数据将会按你指定的函数进行统计，并将结果分配到表格中。

pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

python中数据分析常用函数整理的更多相关文章

Python 学习：常用函数整理
整理Python中常用的函数一,把字符串形式的list转换为list 使用ast模块中的literal_eval函数来实现,把字符串形式的list转换为Python的基础类型list from as ...
python中math常用函数
python中math的使用 import math #先导入math包 1 三角函数 print math.pi #打印pi的值 3.14159265359 print math.radians(1 ...
Python中关于Lambda函数的使用总结
lambda表达式是一种匿名函数,对应python中的自定义函数def,是定义某个函数时比较高级的一种写法.作为python初学者,本文整理了lambda的一些基本用法和特点. lambda和def的 ...
思迈特软件Smartbi：Excel数据分析常用函数汇总！
多传统行业的数据分析师只要求掌握Excel即可,会SPSS/SAS是加分项.即使在挖掘满街走,Python不如狗的互联网数据分析界,Excel也是不可替代的. Excel是我们工作中经常使用的一种工具 ...
NiosII常用函数整理
NiosII常用函数整理 IO操作函数函数原型:IORD(BASE, REGNUM) 输入参数:BASE为寄存器的基地址,REGNUM为寄存器的偏移量函数说明:从基地址为BASE的设备中读取寄存器中偏 ...
Python中的map()函数和reduce()函数的用法
Python中的map()函数和reduce()函数的用法这篇文章主要介绍了Python中的map()函数和reduce()函数的用法,代码基于Python2.x版本,需要的朋友可以参考下 Py ...
举例详解Python中的split()函数的使用方法
这篇文章主要介绍了举例详解Python中的split()函数的使用方法,split()函数的使用是Python学习当中的基础知识,通常用于将字符串切片并转换为列表,需要的朋友可以参考下函数:sp ...
python中的生成器函数是如何工作的？
以下内容基于python3.4 1. python中的普通函数是怎么运行的? 当一个python函数在执行时,它会在相应的python栈帧上运行,栈帧表示程序运行时函数调用栈中的某一帧.想要获得某个函 ...
pandas 常用函数整理
pandas常用函数整理,作为个人笔记. 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档. 约定 from pandas import Series, DataFrame im ...

随机推荐

学习JavaSE TCP/IP协议与搭建简易聊天室
一.TCP/IP协议 1.TCP/IP协议包括TCP.IP和UDP等 2.域名通过dns服务器转换为IP地址 3.局域网可以通过IP或者主机地址寻找到相应的主机 4.TCP是可靠的连接,效率低,且连接 ...
升级时针对Source oracle home 不存在解决办法
针对于oracle升级从11.2.0.4升级至12.1.0.1,遇到的问题解决. 运行/oracle/app/product/12.1.0.1/dbhome_1/bin/dbua 后在选择数据库ho ...
实验吧web天网管理系统
直接查看源码 <!--$test=$_GET['username']>这一行源码的下面给了我们一些提示:我们输入的username经过md5加密后会赋值给test.当test为0时就会跳 ...
Scribe+HDFS日志收集系统安装方法
1.概述 Scribe是facebook开源的日志收集系统,可用于搜索引擎中进行大规模日志分析处理.其通常与Hadoop结合使用,scribe用于向HDFS中push日志,而Hadoop通过MapRe ...
2017-2018-1 20155233 《信息安全系统设计基础》实现mypwd
2017-2018-1 20155233 <信息安全系统设计基础>实现mypwd linux命令pwd介绍 pwd命令以绝对路径的方式显示用户当前工作目录.命令将当前目录的全路径名称(从根 ...
JavaEE笔记（六）
实现Action的几种方法1. implements Action2. extends ActionSupport3. 也可以不继承任何父类不实现任何借口 #当一个类有多个方法 package com ...
为什么volatile不能保证原子性？
为什么volatile能替代简单的锁,却不能保证原子性?这里面涉及volatile,是java中的一个我觉得这个词在Java规范中从未被解释清楚的神奇关键词,在Sun的JDK官方文档是这样形容vola ...
传统路由和OVS区别
本文主要描述了一种将三层路由变成二层交换转发(以及二层转发变成三层路由)的实现方式,以应对OVS(OpenFlow)跨网段路由复杂的问题:当然技术本身是客观的,具体应用还要看场景. 随着SDN技术不断 ...
【BZOJ 2132】圈地计划 && 【7.22Test】计划
两种版本的题面 Description 最近房地产商GDOI(Group of Dumbbells Or Idiots)从NOI(Nuts Old Idiots)手中得到了一块开发土地.据了解,这块土 ...
fortran shapefile学习
试图编写一个fortran程序,用以判断给定的点是否落在给定shapefile的范围内. 需要利用到FortranGIS库 ,而该库又依赖于Shapefile C Library 安装shapelib ...

python中数据分析常用函数整理

python中数据分析常用函数整理的更多相关文章

随机推荐

热门专题