1. 处理缺失数据:

pd.fillna()
pd.dropna()

2. 数据转换

2.1 处理重复数据

duplicated()返回布尔型Series表示每行是否为重复行

示例代码：

import numpy as np

import pandas as pd

df_obj = pd.DataFrame({'data1' : ['a'] * 4 + ['b'] * 4,

                       'data2' : np.random.randint(0, 4, 8)})

print(df_obj)

print(df_obj.duplicated())

运行结果：

# print(df_obj)

  data1  data2

0     a      3

1     a      2

2     a      3

3     a      3

4     b      1

5     b      0

6     b      3

7     b      0

# print(df_obj.duplicated())

0    False

1    False

2     True

3     True

4    False

5    False

6    False

7     True

dtype: bool

drop_duplicates()过滤重复行

默认判断全部列
可指定按某些列判断

示例代码：

print(df_obj.drop_duplicates())

print(df_obj.drop_duplicates('data2'))

运行结果：

# print(df_obj.drop_duplicates())

  data1  data2

0     a      3

1     a      2

4     b      1

5     b      0

6     b      3

# print(df_obj.drop_duplicates('data2'))

  data1  data2

0     a      3

1     a      2

4     b      1

5     b      0

2.2 利用函数或映射进行数据转换

根据map传入的函数对每行或每列进行转换

示例代码：

ser_obj = pd.Series(np.random.randint(0,10,10))

print(ser_obj)

print(ser_obj.map(lambda x : x ** 2))

运行结果：

# print(ser_obj)

0    1

1    4

2    8

3    6

4    8

5    6

6    6

7    4

8    7

9    3

dtype: int64

# print(ser_obj.map(lambda x : x ** 2))

0     1

1    16

2    64

3    36

4    64

5    36

6    36

7    16

8    49

9     9

dtype: int64

2.3 替换值

replace根据值的内容进行替换

示例代码：

# 单个值替换单个值

print(ser_obj.replace(1, -100))

# 多个值替换一个值

print(ser_obj.replace([6, 8], -100))

# 多个值替换多个值

print(ser_obj.replace([4, 7], [-100, -200]))

运行结果：

# print(ser_obj.replace(1, -100))

0   -100

1      4

2      8

3      6

4      8

5      6

6      6

7      4

8      7

9      3

dtype: int64

# print(ser_obj.replace([6, 8], -100))

0      1

1      4

2   -100

3   -100

4   -100

5   -100

6   -100

7      4

8      7

9      3

dtype: int64

# print(ser_obj.replace([4, 7], [-100, -200]))

0      1

1   -100

2      8

3      6

4      8

5      6

6      6

7   -100

8   -200

9      3

dtype: int64

3. 字符串操作

3.1 字符串方法

3.2 正则表达式方法

3.3 pandas字符串函数

Python数据分析入门（十）：数据清洗和准备的更多相关文章

Python数据分析入门与实践 ✌✌
Python数据分析入门与实践 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 这是一个数据驱动的时代,想要从事机器学习.人工智能.数据挖掘等前沿技术,都离不开 ...
Python数据分析入门
Python数据分析入门最近,Analysis with Programming加入了Planet Python.作为该网站的首批特约博客,我这里来分享一下如何通过Python来开始数据分析.具体内 ...
Python数据分析入门之pandas基础总结
Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...
Python数据分析入门与实践
Python数据分析入门与实践整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大家看的时候可以关 ...
python数据分析入门(一)----安装pandas
打算入坑, python数据分析 , 所以下载了 <利用python数据分析>的电子书, 影印版 , 14年出版的 , 现在有很多工具对不上号, 但是整体思想还是不变的 , 所以准备工作要 ...
10个步骤教你如何安装Anaconda安装，Python数据分析入门必看
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:小白 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行 ...
Python数据分析入门（十四）：数据分析中常用图
折线图: 折线图用于显示数据在一个连续的时间间隔或者时间跨度上的变化,它的特点是反映事物随时间或有序类别而变化的趋势.示例图如下: 折线图应用场景: 折线图适合X轴是一个连续递增或递减的,对于没有规律 ...
Python数据分析入门（十六）：设置可视化图表的信息
现在我们添加图后,没有指定x轴代表什么,y轴代表什么,以及这个图的标题是什么.因此以下我们通过一些属性来设置一下. 设置线条样式: 使用plot方法:plot方法就是用来绘制线条的,因此可以在绘制的时 ...
python数据分析入门学习笔记
学习利用python进行数据分析的笔记&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分 ...

随机推荐

IM & WebSockets
IM & WebSockets WebSocket API https://developer.mozilla.org/en-US/docs/Web/API/WebSockets_API ht ...
DeFi 热潮下，NGK将成为下一个财富密码
区块链正在脱虚向实,处于大规模落地,赋能实体产业的前夜,而在这个关键的关口,一个万亿市场的蓝海正在缓缓生成,成为区块链落地的急先锋,这个先锋便是DeFi. DeFi,即Decentralized Fi ...
NDB程序进近复飞保护区的绘制
终于有点空闲,找张图来演练一下<风螺旋标准模板>软件的用法. 某机场NDB进近程序剖面图如下图所示: 该机场采用了近台和远台的双台布局,近台和远台均为NDB与指点标的合装台,没有中间进近定 ...
女朋友看了会生气的回答 URI和URL有什么区别？
URL是什么 URL 代表着是统一资源定位符(Uniform Resource Locator).作用是为了告诉使用者某个资源在 Web 上的地址.这个资源可以是一个 HTML 页面,一个 CSS ...
分布式文件系统FastDFS简介、搭建、与SpringBoot整合实现图片上传
之前大学时搭建过一个FastDFS的图片服务器,当时只是抱着好奇的态度搭着玩一下,当时搭建采用了一台虚拟机,tracker和storage服务在一台机器上放着,最近翻之前的博客突然想着在两台机器上搭建 ...
医学图像 | DualGAN与儿科超声心动图分割 | MICCAI
文章转自微信公众号:「机器学习炼丹术」作者:炼丹兄(已授权) 联系方式:微信cyx645016617(欢迎交流共同进步) 论文名称:"Dual Network Generative Adv ...
POJ-3268(来回最短路+dijkstra算法)
Silver Cow Party POJ-3268 这题也是最短路的模板题,只不过需要进行两次求解最短路,因为涉及到来回的最短路之和. 该题的求解关键是:求解B-A的最短路时,可以看做A是起点,这就和 ...
js mysql 时间日期比较
js代码 1 var date1 = '2017/2/13'; 2 //var date1 = new Date().toLocaleDateString(); 3 var date2 = '2017 ...
MYSQL-SQLSERVER获取某个数据库的表记录数
MYSQL: 1,可以使用MYSQL的系统表的记录数(亲测,有时候,会不准确,被坑了一把,如果还是想通过此方式实现查询表记录数,可以按照文章后的链接进行操作) use information_sche ...
RabbitMQ简介、安装、基本特性API--Java测试
新的阅读体验地址:http://www.zhouhong.icu/post/141 本篇文章所有的代码:https://github.com/Tom-shushu/Distributed-system ...

Python数据分析入门（十）：数据清洗和准备

1. 处理缺失数据:

2. 数据转换

2.1 处理重复数据

2.2 利用函数或映射进行数据转换

2.3 替换值

3. 字符串操作

3.1 字符串方法

3.2 正则表达式方法

3.3 pandas字符串函数

Python数据分析入门（十）：数据清洗和准备的更多相关文章

随机推荐

热门专题