pandas 学习（四）—— 数据处理（清洗）、缺失值的处理

创建 DataFrame：

df = pd.DataFrame(np.random.randint(0, 10, (2, 4)), columns=list('ABCD'))

0. 为 data frame 添加新的属性列

>> df['total'] = df['A'] + df['B'] + df['C'] + df['D']

    # 等价于 df['total'] = df.A + df.B + df.C + df.D

1. 数据类型

df.values ⇒ 返回的是 numpy 下的多维数组；
- df.column_name.values ⇒ 返回的也是 numpy 下的数组类型；
df.dtypes：返回的是各个属性列的类型；
- df.select_dtypes([np.object])
- df.select_dypes([bool])

2. 简单数据统计

统计某一属性可能的取值：df.column_name.unique()
统计出现的次数：df.column_name.value_counts()
- column_name 对应的是该 DataFrame 中某列的列名；
- 也即 pandas 下的 DataFrame 对象直接支持点+列名的方式进行索引；

3. 缺失值的处理

所有缺失值字段填充为 0：df.fillna(0)，一定要十分注意的一点是，df.fillna() 操作默认（inplace=False）不是 inplace，也即不是对原始 data frame 直接操作修改的，而是创建一个副本，对副本进行修改；
- df.fillna(0, inplace=True)
- df = df.fillna(0)
舍弃：
- 舍弃那些全行为 NaN 的行，以及全列为 NaN 的行：
  - df.dropna(axis=[0, 1], how=’all’)
- 删除某些行和列：
  - df.drop([], axis=1, inplace=True) ⇒ axis = 1，删除列；
  - df.drop([], axis=0, inplace=True) ⇒ axis = 0，删除行；

均值填充

age_mean = data.Age.mean()      # age_mean = data['Age'].mean()

data.Age[data['Age'].isnull()] = age_mean   # data['Age'] == data.Age 二者是等效的

pandas 学习（四）—— 数据处理（清洗）、缺失值的处理的更多相关文章

pandas学习3(数据处理)
pandas学习（四）--数据的归一化
欢迎加入python学习交流群 667279387 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据 ...
【转】Pandas学习笔记（四）处理丢失值
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
Python pandas学习总结
本来打算学习pandas模块,并写一个博客记录一下自己的学习,但是不知道怎么了,最近好像有点急功近利,就想把别人的东西复制过来,当心沉下来,自己自觉地将原本写满的pandas学习笔记删除了,这次打算写 ...
Pandas学习（三）——NBA球员薪资分析
欢迎加入python学习交流群 667279387 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学 ...
Pandas学习（一）——数据的导入
欢迎加入python学习交流群 667279387 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学 ...
pandas 学习笔记【持续更新】
import numpy as np import pandas as pd import matplotlib.pyplot as plt df1 = pd.DataFrame(np.arange( ...
python学习_数据处理编程实例（二）
在上一节python学习_数据处理编程实例(二)的基础上数据发生了变化,文件中除了学生的成绩外,新增了学生姓名和出生年月的信息,因此将要成变成:分别根据姓名输出每个学生的无重复的前三个最好成绩和出生年 ...
Struts2框架学习(三) 数据处理
Struts2框架学习(三) 数据处理 Struts2框架框架使用OGNL语言和值栈技术实现数据的流转处理. 值栈就相当于一个容器,用来存放数据,而OGNL是一种快速查询数据的语言. 值栈:Value ...
Pandas系列（三）-缺失值处理
内容目录 1. 什么是缺失值 2. 丢弃缺失值 3. 填充缺失值 4. 替换缺失值 5. 使用其他对象填充数据准备 import pandas as pd import numpy as np in ...

随机推荐

最优子结构（Optimal Substructure）
最优子结构的存在是应用动态规划的前提(或者说必要条件),由此可以避免重复计算: 1. 图算法最短路径的子路径也一定是最短的: 简单地反证,如果最短路径的中间两点,之间的路径不是最短路径的话,那么一定 ...
JavaScript--数据结构与算法之列表
3.1 列表的抽象数据类型定义列表:一组有序的数据.每个列表中的数据称为元素.在JavaScript中列表的元素可以是任意的数据类型.列表中保存的元素没有事先的限定,实际使用时的元素数量受到程序内存 ...
用Navicat连接MySQL数据库出现1251错误：密码方式错误
原因:因为MySQL8.0是最新版密码保存方式,而图形化数据库管理工具还是原先的密码保存方式. 解决方式: 用CMD命令号方式进入MySQL use mysql: ALTER USER 'root'@ ...
MySQL主从同步配置（详细图解）
说明:该篇博客是博主一字一码编写的,实属不易,请尊重原创,谢谢大家! 目录一丶叙述二丶备份主服务器原有数据到从服务器三丶配置主服务器master(192.168.4.63) 四丶配置从服务器sl ...
将二级目录下的文件合并成一个文件的Python小脚本
这个小程序的目的是将二级目录下的文件全部合并成一个文件(其实几级目录都可以,只要做少许改动) #coding:utf8 import sys, os def process(path): new_fi ...
【hdu 1068】Girls and Boys
[Link]:http://acm.hdu.edu.cn/showproblem.php?pid=1068 [Description] 有n个人,一些人认识另外一些人,选取一个集合,使得集合里的每个人 ...
5.9 enum--支持枚举类型
enum模块提供了枚举类型的支持.枚举类型是由一个名称和一个统一值来组成.值是常量的值.它们之间能够通过名称进行比較和引用,还能够迭代訪问. 5.9.1 模块内容本模块主要定义了两种枚举类型:Enu ...
[Javascirpt AST] Babel Plugin -- create new CallExpression
The code we want to trasform: 2 ** 3; a ** b; a **b * c; a ** b ** c; (a+1) ** (b+1); transform to: ...
[Vue + TS] Use Dependency Injection in Vue Using @Inject and @Provide Decorators with TypeScript
Vue 2.2 introduced a simple dependency injection system, allowing you to use provide and inject in y ...
24岁程序员，一个人撑起App开发项目
"疲惫吾心,怎样躲藏! 四处荒芜,怎话忧伤?"临近中秋,看到艾瑞斯的QQ签名,无尽的伤感.这个年仅24的青年.连续3年没有回家了,近期一个月总是失眠,没有家人的陪伴,就连女朋友都没 ...

pandas 学习（四）—— 数据处理（清洗）、缺失值的处理

0. 为 data frame 添加新的属性列

1. 数据类型

2. 简单数据统计

3. 缺失值的处理

pandas 学习（四）—— 数据处理（清洗）、缺失值的处理的更多相关文章

随机推荐

热门专题