第16天pandas的基本功能(一)

灵活的二进制操作

体现在2个方面
- 支持一维和二维之间的广播
- 支持缺失值数据处理

四则运算支持广播

+add - sub *mul /div
divmod()分区和模运算(返回商和余数2个结果)
- 案例:a,b=divmod(一维矩阵)
空值处理
- 矩阵中空值用NaN代替
- NaN+值=NaN
- np(numpy).nan表示空值
- 填充空值: fillna(value=值)
- np.nan == np.nan 结果为False
  - 如果a矩阵和b矩阵中有空值那么 a == b 结果:False
  - 相同:a.equal(b )结果为:True.带空的矩阵比较推荐使用equal
组合
- 从df2中把df1的数据不全
  - df1.combine_first(df2)
- 连接
  - 连接二维矩阵
    - df1.concat(df2,axis=0/1)
  - 连接一维矩阵
    - pd.concat([df1,df2])
  - 一维二维通用
    - df1.append(df2)

统计

所有统计函数都支持行或列~~~
- sum(0/1) mean(0/1)

统计函数

功能	描述
`count`	非NA观测数量
`sum`	价值总和
`mean`	价值的平均值
`mad`	平均绝对偏差
`median`	算术值的中值
`min`	最低限度
`max`	最大值
`mode`	模式
`abs`	绝对值
`prod`	价值的产物
`std`	贝塞尔校正的样本标准偏差
`var`	无偏差
`sem`	平均值的标准误差
`skew`	样本偏斜（第3时刻）
`kurt`	样本峰度（第4个时刻）
`quantile`	样本分位数（值为％）
`cumsum`	累计金额
`cumprod`	累积产品
`cummax`	累积最大值
`cummin`	累积最小值

统计函数,统计的时候自动跳过空值
len(数组)获取行数,包括Nan所在的行~~~count(不包括)

include

#可以指定摘要统计的东西
矩阵.describe(include=['object'])
矩阵.describe(include=['number'])

最大最小索引
- 最大数和最小数对应的索引位置
  - 最大矩阵.idxmax(axis=0/1)
  - 最小矩阵 .idxmin(axis=0/1)
最常出现值模式
- a.value_counts() 统计一维数组中每个元素出现的次数
- a.mode()统计数组中出现次数最多的值

分段/面元

cut和qcut

共同点
- 都可以分为好多份 pd.cut/qcut(df,4) qcut 是对等的 cut 是随机的
不同点
- pd.cut(df,[数组]) qcut不支持

语法 pd.cut(df,[切点列表],right=True/False)

示列

#分2组  大于18的为成年,小于18的为未成年,统计个数 
a = pd.Series([4,5,5,2,3,1,8,9,3,15,6,45,56,1,56,2,20,4,5,2,1,8,18,1,82,20,25,20,20,12,13,14])
b = pd.cut(a,[0,18,100],labels=['未成年','成年'],right=False)
b.value_counts()

为矩阵添加处理函数/支持多个函数

链式写法
- (df.pipe(函数名,参数).pipe(函数名,参数).......)

apply

df.apply(函数名,axis=0/1) 为当前行或列添加处理函数

示列

#12.判断年龄是否成年: 18岁以上成年   #成年和未成年获救比例
"""
1.判断是否成年
2.
"""
def age_old(b):
    
    c = b['Age']
    if c > 18:
        return '成年'
    elif c < 18:
        return '未成年'
    else:
        return '空值'
#创建新列 
df['chegnnian'] = df.apply(age_old,axis=1)
#设置全家的汉子显示
plt.rcParams['font.size'] = 15

h_j = df.groupby(by=['Survived','chegnnian']).size()
plt.pie(h_j,labels=['成年未获救','未成年未获救','空值未获救','成年获救','未成年获救','空值获救'],shadow=True,autopct='%1.1f%%')
plt.axis('equal') #设置圆的形状 正圆
plt.show()

map

df.applymap == df.map()

示列

#10.    以下肉类数据源,food都转换为小写,添加一个动物列,而且字符串都是小写
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon','Pastrami', 'corned beef', 'Bacon','pastrami', 'honey ham', 'nova lox'],
'price': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data['food'].str.lower()

#新列: 动物列
animal = { 'bacon': 'Pig', 'pulled pork': 'pIg', 'pastrami': 'cOw', 'corned beef': 'Co', 'honey Ham': 'pig', 'nova lox': 'Salmon' }
x = data['food'].map(animal)
data['animal'] = x
data

pandas的基本功能(一)的更多相关文章

pandas的筛选功能，跟excel的筛选功能类似，但是功能更强大。
Select rows from a DataFrame based on values in a column -pandas 筛选 https://stackoverflow.com/questi ...
（数据科学学习手札134）pyjanitor：为pandas补充更多功能
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 pandas发展了如此多年,所包含的功能已 ...
python数据分析之Pandas：基本功能介绍
Pandas有两个主要的数据结构:Series和DataFrame． Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签构成．来看下它的使用过程 In [1]: from ...
Pandas常用基本功能
Series 和 DataFrame还未构建完成的朋友可以参考我的上一篇博文:https://www.cnblogs.com/zry-yt/p/11794941.html 当我们构建好了 Series ...
Pandas | 21 日期功能
日期功能扩展了时间序列,在财务数据分析中起主要作用.在处理日期数据的同时,我们经常会遇到以下情况 - 生成日期序列将日期序列转换为不同的频率创建一个日期范围通过指定周期和频率,使用date.ra ...
Pandas | 05 基本功能
到目前为止,我们了解了三种Pandas数据结构以及如何创建它们.接下来将主要关注数据帧(DataFrame)对象,因为它在实时数据处理中非常重要,并且还讨论其他数据结构. 一.系列基本功能编号属性 ...
pandas replace 替换功能function
list like replace method dict like replace method regex expression import pandas as pd import numpy ...
3.1,pandas【基本功能】
一:改变索引 reindex方法对于Series直接索引,对于DataFrame既可以改变行索引,也可以改变列索引,还可以两个一起改变. 1)对于Series In [2]: seri = pd.Se ...
pandas的基本功能
一.重新索引 (1)reindex方式 obj = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4]) print(obj) obj.re ...

随机推荐

Go九九乘法表
package main import "fmt" func main(){ ; i < ; i ++ { k ++ ; j ++ { { fmt.Printf(" ...
vue数据变化的监控是如何做到的
mvvm框架里的数据监控对象,包括基本数据类型和对象, 对象分为对象和数组. 首先是对普通数据类型和对象的监控.其次是对数组的监控. 对对象的监控需要用到递归; <!DOCTYPE html& ...
是否能设计一种DNN的特定网络结构来改善DNN，使得其学习起来更加高效
小结: 1. 是否能设计一种DNN的特定网络结构来改善DNN,使得其学习起来更加高效 https://mp.weixin.qq.com/s/lF_WLAn6JyQqf10076hsjA Deep &a ...
无法登陆mysql user用户
Xcode工程编译错误之iOS开发之The Xcode build system has crashed. Please close and reopen your workspace
解决方法: . 删除DerivedData . 参照上面的链接设置:File -> Workspace Settings -> Build System -> Legacy Buil ...
jQuery中的$.getJSON、$.ajax、$.get、$.post的区别
jQuery中的$.getJSON.$.ajax.$.get.$.post的区别使用见Flask(python)异步(ajax)返回json格式数据 ①.$.getJSON $.getJSON()是 ...
delphi 自动获取串口
delphi 自动获取串口 https://blog.csdn.net/Nevermore_anger/article/details/79012875 版权声明:本文为博主原创文章,未经博 ...
Ionic3多个自定义过滤器--管道（pipe）
往往我们创建自定义管道一般都不止只会创建一个自定义管道,和自定义组件类似,创建多个方式如下. 一.命令行生成管道 ionic g pipe formateDate ionic g pipemoneyD ...
ant安装报错：ANT_HOME is set incorrectly or ant could not be located. Please set ANT_HOME.
后来发现问题原因是没有设置classpath,或者是\的原因: 正确配置如下: ANT_HOME:D:\ant\apache-ant-1.10.5 CLASSPATH: %ANT_HOME%\lib ...
java程序如何正确的打日志
什么是日志简单的说,日志就是记录程序的运行轨迹,方便查找关键信息,也方便快速定位解决问题. 我们 Java 程序员在开发项目时都是依赖 Eclipse/ Idea 等开发工具的 Debug 调试功能 ...

pandas的基本功能(一)

第16天pandas的基本功能(一)

灵活的二进制操作

pandas的基本功能(一)的更多相关文章

随机推荐

热门专题