本章概要

1、去重

2、缺失值处理

3、清洗字符型数据的空格

4、字段抽取

去重

  • 把数据结构中,行相同的数据只保留一行

  • 函数语法:

    • drop_duplicates()
#导入pandas包中的read_csv函数
from pandas import read_csv
df=read_csv('路径') #找出行重复的位置
dIndex=df.duplicated() #也可根据某些列,找出重复的位置
dIndex=df.duplicated('age')
dIndex=df.duplicated(['age','name']) #根据返回值,把重复数据提取出来
df[dIndex] #默认根据所有的列,进行删除,注意这里是duplicates
newdf=df.drop.duplicates() #也可以指定莫一列,进行重复值删除
newdf=df.drop.duplicates('age')



缺失值处理

缺失数据的产生

  • 数据暂时无法获取

    • 比如未成年儿童的收入等
  • 有些数据被遗漏或错误处理了

缺失数据的处理方式

缺失数据在实际工作中,是不可避免的,本部分还是很重要的

  • 数据补齐

    • 用一定的值去填充空值,使数据完备化,如平均值填充等等
  • 删除对应缺失行

  • 不处理

如何删除缺失数据的所在行

在python中,使用dropna函数进行缺失数据的清洗

  • dropna函数作用:去除数据结构中值为空的数据

  • dropna函数语法:dropna()

# 首先导入数据文件,输出df变量
from pandas import read_csv
df=read_csv('路径')

在pandas的数据框中,缺失值用NaN来标注



# 把之前数据为空的,换成a,b,可以把a、b指定为NaN值,作用是可以把不不要的数据替换成缺失值,然后处理,使用的是read的na_values函数
df=read_csv('路径',na_values=['a','b'])
# 找出NaN所在的行,通过isnull方法获取数据框中某个位置的值是否为NaN值
isNA=df.isnull()

  • 如何数据框对应的位置是NaN值,那么isnull方法对应的就是布尔值True,根据这个特征,就可以使用数据框的行获取方法,获取出NaN值所在的行
#获取空值所在的行
#首先获取所有的列,只要获取到NaN了,就认为这行有NaN值了
#使用any方法,就可以实现这种选择效果
df[isNA.any(axis=1)]

#如何要特定某列的NaN值,定位后在用any的方法就可以了
df[isNA[['gender']].any(axis=1)]
  • 特别注意定位gender的字符串有两个中括号,不能是一个
#直接删除空值
newdf=df.dropna()

清洗字符型数据的空格

  • strip函数作用:清除字符型数据左右的空格

  • strip函数语法:strip()

#打开数据文件
from pandas import read_csv
df=read_csv('路径') #清除字符串左边的空格
newname=df['name'].str.lstrip()
#清除字符串右边的空格
newname=df['name'].str.rstrip()
#清除字符串左、右边的空格
newname=df['name'].str.strip() #把清洗后的数据放回原来的列
df['name']=newname

字段抽取

  • 字段抽取,是根据已知列数据的开始和结束位置,抽取出新的列

  • 字段截取函数:slice(start开始位置,stop结束位置)

    • 与数据结构的访问方式一样,开始位置是从0开始的,开始位置是大于等于,结束位置是小于,不能取等于

    • slice函数默认只能处理字符型数据,如要处理数字型数据,必须进行转化

第三章 python数据规整化的更多相关文章

  1. 《python for data analysis》第七章,数据规整化

    <利用Python进行数据分析>第七章的代码. # -*- coding:utf-8 -*-# <python for data analysis>第七章, 数据规整化 imp ...

  2. Python之数据规整化:清理、转换、合并、重塑

    Python之数据规整化:清理.转换.合并.重塑 1. 合并数据集 pandas.merge可根据一个或者多个不同DataFrame中的行连接起来. pandas.concat可以沿着一条轴将多个对象 ...

  3. MVC5+EF6 简易版CMS(非接口) 第三章:数据存储和业务处理

    目录 简易版CMS后台管理系统开发流程 MVC5+EF6 简易版CMS(非接口) 第一章:新建项目 MVC5+EF6 简易版CMS(非接口) 第二章:建数据模型 MVC5+EF6 简易版CMS(非接口 ...

  4. 利用python进行数据分析之数据规整化

    数据分析和建模大部分时间都用在数据准备上,数据的准备过程包括:加载,清理,转换与重塑. 合并数据集 pandas对象中的数据可以通过一些内置方法来进行合并: pandas.merge可根据一个或多个键 ...

  5. 利用Python进行数据分析——数据规整化:清理、转换、合并、重塑(七)(1)

    数据分析和建模方面的大量编程工作都是用在数据准备上的:载入.清理.转换以及重塑.有时候,存放在文件或数据库中的数据并不能满足你的数据处理应用的要求.很多人都选择使用通用编程语言(如Python.Per ...

  6. 《利用python进行数据分析》读书笔记--第七章 数据规整化:清理、转换、合并、重塑(三)

    http://www.cnblogs.com/batteryhp/p/5046433.html 5.示例:usda食品数据库 下面是一个具体的例子,书中最重要的就是例子. #-*- encoding: ...

  7. Python 数据分析(一) 本实验将学习 pandas 基础,数据加载、存储与文件格式,数据规整化,绘图和可视化的知识

    第1节 pandas 回顾 第2节 读写文本格式的数据 第3节 使用 HTML 和 Web API 第4节 使用数据库 第5节 合并数据集 第6节 重塑和轴向旋转 第7节 数据转换 第8节 字符串操作 ...

  8. 0003-20180422-自动化第三章-python基础学习笔记

    3章 内容回顾: 1. 计算机组成 2. 程序编译器 3. 变量 4. 条件 5. 循环 6. py2与py3区别 - 默认编码, - 除法, - input ,raw_input 7. 位,字节关系 ...

  9. 第三章 Python容器:列表、元组、字典与集合

      数据结构的分类依据?基本的"数组"在python中是列表, 数据结构的作用?容器,盛放数据,是由原子组成的分子.可以将一群数据进行整合.拆分.重排. 3.2 列表 列表是啥?顺 ...

随机推荐

  1. How does a browser know which response belongs to which request?

    Today I knows that the server never send a request to a client! It just make response~ So,if the bro ...

  2. MyBatis 示例-动态 SQL

    MyBatis 的动态 SQL 包括以下几种元素: 详细的使用参考官网文档:http://www.mybatis.org/mybatis-3/zh/dynamic-sql.html 本章内容简单描述这 ...

  3. PCA(主成分分析)方法浅析

    PCA(主成分分析)方法浅析 降维.数据压缩 找到数据中最重要的方向:方差最大的方向,也就是样本间差距最显著的方向 在与第一个正交的超平面上找最合适的第二个方向 PCA算法流程 上图第一步描述不正确, ...

  4. 使用SSH命令行远程登录运行在CloudFoundry上的应用

    当我试图用如下命令行采用SSH远程登录到运行在CloudFoundry环境下的应用时, cf ssh -N -T -L 9229:127.0.0.1:9229 jerry-demo-server 遇到 ...

  5. 处理器拦截器(HandlerInterceptor)详解(转)

    简介 SpringWebMVC的处理器拦截器,类似于Servlet开发中的过滤器Filter,用于处理器进行预处理和后处理. 应用场景 1.日志记录,可以记录请求信息的日志,以便进行信息监控.信息统计 ...

  6. MySQL时间类型及获取、展示处理

    MySQL时间格式 mysql所支持的日期时间类型有:DATETIME. TIMESTAMP.DATE.TIME.YEAR. 几种类型比较如下: 日期时间类型 占用空间 日期格式 最小值 最大值 零值 ...

  7. C#面向对象(五大基本原则 )

    五大原则 单一职责原则(SRP)开放封闭原则(OCP) 里氏替换原则(LSP) 依赖倒置原则(DIP) 接口隔离原则(ISP)  一.单一职责原则SRP(Single Responsibility P ...

  8. JAVA中AES对称加密和解密以及与Python兼容

    引言:本文主要解决Java中用AES加密及解密,同时可通过Python脚本对Java加密后的字符进行解密的操作. 由于近期工作中用到需要使用Java对一串密钥进行加密,并且后台通过Python语言读取 ...

  9. win10家庭版设置移动热点出现“我们无法设置移动热点”

    寝室wifi卡到爆炸,  买了一个360随身WiFi,可是360随身WiFi烧坏了  ...然后我就一个星期没玩游戏了 今天本来想开电脑的wifi试一试,结果发现无法设置热点 纳闷了 百度一下,发现都 ...

  10. CentOS7 解决不能切换中英文输入法的问题

    1. 运行 im-chooser(如果没有要先安装) $ im-chooser 2. 在打开的窗口选择 iBus,然后 Logout 再 Login, 输入法即可切换.