apply和applymap

1. 可直接使用NumPy的函数

示例代码：

# Numpy ufunc 函数

df = pd.DataFrame(np.random.randn(5,4) - 1)

print(df)

print(np.abs(df))

运行结果：

          0         1         2         3

0 -0.062413  0.844813 -1.853721 -1.980717

1 -0.539628 -1.975173 -0.856597 -2.612406

2 -1.277081 -1.088457 -0.152189  0.530325

3 -1.356578 -1.996441  0.368822 -2.211478

4 -0.562777  0.518648 -2.007223  0.059411

          0         1         2         3

0  0.062413  0.844813  1.853721  1.980717

1  0.539628  1.975173  0.856597  2.612406

2  1.277081  1.088457  0.152189  0.530325

3  1.356578  1.996441  0.368822  2.211478

4  0.562777  0.518648  2.007223  0.059411

2. 通过apply将函数应用到列或行上

示例代码：

# 使用apply应用行或列数据

#f = lambda x : x.max()

print(df.apply(lambda x : x.max()))

运行结果：

0   -0.062413

1    0.844813

2    0.368822

3    0.530325

dtype: float64

注意指定轴的方向，默认axis=0，方向是列

示例代码：

# 指定轴方向，axis=1，方向是行

print(df.apply(lambda x : x.max(), axis=1))

运行结果：

0    0.844813

1   -0.539628

2    0.530325

3    0.368822

4    0.518648

dtype: float64

3. 通过applymap将函数应用到每个数据上

示例代码：

# 使用applymap应用到每个数据

f2 = lambda x : '%.2f' % x

print(df.applymap(f2))

运行结果：

       0      1      2      3

0  -0.06   0.84  -1.85  -1.98

1  -0.54  -1.98  -0.86  -2.61

2  -1.28  -1.09  -0.15   0.53

3  -1.36  -2.00   0.37  -2.21

4  -0.56   0.52  -2.01   0.06

排序

1. 索引排序

sort_index()

排序默认使用升序排序，ascending=False 为降序排序

示例代码：

# Series

s4 = pd.Series(range(10, 15), index = np.random.randint(5, size=5))

print(s4)

# 索引排序

s4.sort_index() # 0 0 1 3 3

运行结果：

0    10

3    11

1    12

3    13

0    14

dtype: int64

0    10

0    14

1    12

3    11

3    13

dtype: int64

对DataFrame操作时注意轴方向

示例代码：

# DataFrame

df4 = pd.DataFrame(np.random.randn(3, 5),

                   index=np.random.randint(3, size=3),

                   columns=np.random.randint(5, size=5))

print(df4)

df4_isort = df4.sort_index(axis=1, ascending=False)

print(df4_isort) # 4 2 1 1 0

运行结果：

          1         4         0         1         2

2 -0.416686 -0.161256  0.088802 -0.004294  1.164138

1 -0.671914  0.531256  0.303222 -0.509493 -0.342573

1  1.988321 -0.466987  2.787891 -1.105912  0.889082

          4         2         1         1         0

2 -0.161256  1.164138 -0.416686 -0.004294  0.088802

1  0.531256 -0.342573 -0.671914 -0.509493  0.303222

1 -0.466987  0.889082  1.988321 -1.105912  2.787891

2. 按值排序

sort_values(by='column name')

根据某个唯一的列名进行排序，如果有其他相同列名则报错。

示例代码：

# 按值排序

df4_vsort = df4.sort_values(by=0, ascending=False)

print(df4_vsort)

运行结果：

          1         4         0         1         2

1  1.988321 -0.466987  2.787891 -1.105912  0.889082

1 -0.671914  0.531256  0.303222 -0.509493 -0.342573

2 -0.416686 -0.161256  0.088802 -0.004294  1.164138

处理缺失数据

示例代码：

df_data = pd.DataFrame([np.random.randn(3), [1., 2., np.nan],

                       [np.nan, 4., np.nan], [1., 2., 3.]])

print(df_data.head())

运行结果：

          0         1         2

0 -0.281885 -0.786572  0.487126

1  1.000000  2.000000       NaN

2       NaN  4.000000       NaN

3  1.000000  2.000000  3.000000

1. 判断是否存在缺失值：isnull()

示例代码：

# isnull

print(df_data.isnull())

运行结果：

       0      1      2

0  False  False  False

1  False  False   True

2   True  False   True

3  False  False  False

2. 丢弃缺失数据：dropna()

根据axis轴方向，丢弃包含NaN的行或列。示例代码：

# dropna

print(df_data.dropna())

print(df_data.dropna(axis=1))

运行结果：

          0         1         2

0 -0.281885 -0.786572  0.487126

3  1.000000  2.000000  3.000000

          1

0 -0.786572

1  2.000000

2  4.000000

3  2.000000

3. 填充缺失数据：fillna()

示例代码：

# fillna

print(df_data.fillna(-100.))

运行结果：

            0         1           2

0   -0.281885 -0.786572    0.487126

1    1.000000  2.000000 -100.000000

2 -100.000000  4.000000 -100.000000

3    1.000000  2.000000    3.000000

Python数据分析入门（六）：Pandas的函数应用的更多相关文章

Python数据分析入门之pandas基础总结
Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...
Python数据分析入门
Python数据分析入门最近,Analysis with Programming加入了Planet Python.作为该网站的首批特约博客,我这里来分享一下如何通过Python来开始数据分析.具体内 ...
Python数据分析入门与实践 ✌✌
Python数据分析入门与实践 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 这是一个数据驱动的时代,想要从事机器学习.人工智能.数据挖掘等前沿技术,都离不开 ...
Python数据分析工具：Pandas之Series
Python数据分析工具:Pandas之Series Pandas概述Pandas是Python的一个数据分析包,该工具为解决数据分析任务而创建.Pandas纳入大量库和标准数据模型,提供高效的操作数 ...
Python爬虫入门六之Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在 ...
Python数据分析入门与实践
Python数据分析入门与实践整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大家看的时候可以关 ...
python数据分析入门(一)----安装pandas
打算入坑, python数据分析 , 所以下载了 <利用python数据分析>的电子书, 影印版 , 14年出版的 , 现在有很多工具对不上号, 但是整体思想还是不变的 , 所以准备工作要 ...
python数据分析入门学习笔记
学习利用python进行数据分析的笔记&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分 ...
python数据分析入门学习笔记儿
学习利用python进行数据分析的笔记儿&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据 ...
python数据分析入门笔记［1］
1.Numpy: Numpy是python科学计算的基础包,它提供以下功能(不限于此): (1)快速高效的多维数组对象naarray (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数 ( ...

随机推荐

算法的时间复杂度 & 性能对比
算法的时间复杂度 & 性能对比累加算法性能对比 // js 累加算法性能对比测试 const n = 10**6; (() => { console.time(`for`); let ...
Masterboxan INC发布印尼电商市场报告
据海外媒体报导,Masterboxan INC(编号:20151264097)发布了印尼电商市场观察报告,指出印尼电商市场仍然有很大的发展潜力. Masterboxan INC表示,与发达国家从 PC ...
Spring 中的 MetaData 接口
什么是元数据(MetaData) 先直接贴一个英文解释: Metadata is simply data about data. It means it is a description and co ...
源码分析：Exchanger之数据交换器
简介 Exchanger是Java5 开始引入的一个类,它允许两个线程之间交换持有的数据.当Exchanger在一个线程中调用exchange方法之后,会阻塞等待另一个线程调用同样的exchange方 ...
C++算法代码——字符串p型编码
题目来自:http://218.5.5.242:9018/JudgeOnline/problem.php?id=1681 题目描述给定一个完全由数字字符('0','1','2',-,'9')构成的字 ...
02.描述统计 (descriptive statistics)
1.数据的可靠性和有效性 2.利用图表对数据进行可视化 2.1分类变量的可视化 2.11无序分类变量 2.12有序分类变量的可视化 2.1数值变量的可视化数据的分布
Java 8 中Sort排序原理：
总的来说,java中Arrays.sort使用了两种排序方法,快速排序和优化的合并排序.Collections.sort方法底层就是调用的Arrays.sort方法. 快速排序主要是对那些基本类型数据 ...
python进阶（11）生成器
生成器利用迭代器,我们可以在每次迭代获取数据(通过next()方法)时按照特定的规律进行生成.但是我们在实现一个迭代器时,关于当前迭代到的状态需要我们自己记录,进而才能根据当前状态生成下一个数据. ...
wxWidgets源码分析(3) - 消息映射表
目录消息映射表静态消息映射表静态消息映射表处理过程动态消息映射表动态消息映射表处理过程消息映射表消息是GUI程序的核心,所有的操作行为均通过消息传递. 静态消息映射表使用静态Event ...
Flask：数据库管理
为什么不使用SQL语句,而使用ORM框架管理数据库?首先,在python程序中嵌入原生SQL语句,不方便维护,ORM框架使用面向对象思想,使用较方便:第二,如果更换底层数据库引擎,ORM框架不需要修改 ...

Python数据分析入门（六）：Pandas的函数应用

apply和applymap

1. 可直接使用NumPy的函数

2. 通过apply将函数应用到列或行上

3. 通过applymap将函数应用到每个数据上

排序

1. 索引排序

2. 按值排序

处理缺失数据

1. 判断是否存在缺失值：isnull()

2. 丢弃缺失数据：dropna()

3. 填充缺失数据：fillna()

Python数据分析入门（六）：Pandas的函数应用的更多相关文章

随机推荐

热门专题