基于pandas进行数据预处理

很久没用pandas，有些有点忘了，转载一个比较完整的利用pandas进行数据预处理的博文：https://blog.csdn.net/u014400239/article/details/70846634

引入包和加载数据

 import pandas as pd

 import numpy as np

 train_df =pd.read_csv('../datas/train.csv')  # train set

 test_df  = pd.read_csv('../datas/test.csv')   # test  set

 combine  = [train_df, test_df]

清洗数据

查看数据维度以及类型
缺失值处理
查看object数据统计信息
数值属性离散化
计算特征与target属性之间关系

查看数据维度以及类型

 #查看前五条数据

 print train_df.head(5)

 #查看每列数据类型以及nan情况

 print train_df.info()

 # 获得所有object属性

 print train_data.describe().columns

查看object数据统计信息

 #查看连续数值属性基本统计情况

 print train_df.describe()

 #查看object属性数据统计情况

 print train_df.describe(include=['O'])

 # 统计Title单列各个元素对应的个数

 print train_df['Title'].value_counts()

 # 属性列删除

 train_df = train_df.drop(['Name', 'PassengerId'], axis=0)

Ps.原文中axis的处理是不对的，Python中axis = 0是按列处理，axis = 1 是按行处理。

缺失值处理

 # 直接丢弃缺失数据列的行

 print df4.dropna(axis=1,subset=['col1'])  # 丢弃nan的行,subset指定查看哪几列

 print df4.dropna(axis=0)  # 丢弃nan的列

 # 采用其他值填充

 dataset['Cabin'] = dataset['Cabin'].fillna('U')

 dataset['Title'] = dataset['Title'].fillna(0)

 # 采用出现最频繁的值填充

 freq_port = train_df.Embarked.dropna().mode()[0]

 dataset['Embarked'] = dataset['Embarked'].fillna(freq_port)

 # 采用中位数或者平均数填充

 test_df['Fare'].fillna(test_df['Fare'].dropna().median(), inplace=True)

 test_df['Fare'].fillna(test_df['Fare'].dropna().mean(), inplace=True)

数值属性离散化，object属性数值化

 # 创造一个新列，FareBand，将连续属性Fare切分成四份

 train_df['FareBand'] = pd.qcut(train_df['Fare'], 4)

 # 查看切分后的属性与target属性Survive的关系

 train_df[['FareBand', 'Survived']].groupby(['FareBand'], as_index=False).mean().sort_values(by='FareBand', ascending=True)

 # 建立object属性映射字典

 title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Royalty":5, "Officer": 6}

 dataset['Title'] = dataset['Title'].map(title_mapping)

计算特征与target属性之间关系

object与连续target属性之间，可以groupby均值
object与离散target属性之间，先将target数值化，然后groupby均值，或者分别条形统计图
连续属性需要先切割然后再进行groupby计算，或者pearson相关系数

 print train_df[['AgeBand', 'Survived']].groupby(['AgeBand'], as_index=False).mean().sort_values(by='AgeBand', ascending=True)

总结pandas基本操作

 ”’

 创建df对象

 ””’

 s1 = pd.Series([1,2,3,np.nan,4,5])

 s2 = pd.Series([np.nan,1,2,3,4,5])

 print s1

 dates = pd.date_range(“20130101”,periods=6)

 print dates

 df = pd.DataFrame(np.random.rand(6,4),index=dates,columns=list(“ABCD”))

 # print df

 df2 = pd.DataFrame({“A”:1,

 ‘B’:pd.Timestamp(‘20130102’),

 ‘C’:pd.Series(1,index=list(range(4)),dtype=’float32’),

 ‘D’:np.array([3]*4,dtype=np.int32),

 ‘E’:pd.Categorical([‘test’,’train’,’test’,’train’]),

 ‘F’:’foo’

 })

 # print df2.dtypes

 df3 = pd.DataFrame({'col1':s1,

                     'col2':s2

 })

 print df3

 '''

 2.查看df数据

 '''

 print df3.head(2) #查看头几条

 print df3.tail(3) #查看尾几条

 print df.index  #查看索引

 print df.info()  #查看非non数据条数

 print type(df.values)  #返回二元数组

 # print df3.values

 print df.describe()   #对每列数据进行初步的统计

 print df3

 print df3.sort_values(by=['col1'],axis=0,ascending=True) #按照哪几列排序

 '''

 3.选择数据

 '''

 ser_1 = df3['col1']

 print type(ser_1) #pandas.core.series.Series

 print df3[0:2] #前三行

 print df3.loc[df3.index[0]]  #通过index来访问

 print df3.loc[df3.index[0],['col2']]  #通过行index，和列名来唯一确定一个位置

 print df3.iloc[1] #通过位置来访问

 print df3.iloc[[1,2],1:2] #通过位置来访问

 print "==="

 print df3.loc[:,['col1','col2']].as_matrix()   # 返回nunpy二元数组

 print type(df3.loc[:,['col1','col2']].as_matrix())

 '''

 4.布尔索引，过滤数据

 '''

 print df3[df3.col1 >2]

 df4 = df3.copy()

 df4['col3']=pd.Series(['one','two','two','three','one','two'])

 print df4

 print df4[df4['col3'].isin(['one','two'])]

 df4.loc[:,'col3']="five"

 print df4

 '''

 5.缺失值处理，pandas将缺失值用nan代替

 '''

 print pd.isnull(df4)

 print df4.dropna(axis=0,subset=['col1'])  # 丢弃nan的行,subset指定查看哪几列

 print df4.dropna(axis=1)  # 丢弃nan的列

基于pandas进行数据预处理的更多相关文章

使用pandas进行数据预处理01
数据预处理有四种技术:数据合并,数据清洗,数据标准化,以及数据转换. 数据合并技术:(1)横向或纵向堆叠合数据 (2)主键合并数据 (3)重叠合并数据 1.堆叠合并数据: 堆叠就是简单的把两个表拼接在 ...
Python数据预处理之清及
使用Pandas进行数据预处理数据清洗中不是每一步都是必须的,按实际需求操作. 内容目录 1.数据的生成与导入 2.数据信息查看 2.1.查看整体数据信息 2.2.查看数据维度.列名称.数据格式 2 ...
Python的工具包[1] -> pandas数据预处理 -> pandas 库及使用总结
pandas数据预处理 / pandas data pre-processing 目录关于 pandas pandas 库 pandas 基本操作 pandas 计算 pandas 的 Series ...
pandas 数据预处理
pandas 数据预处理缺失数据处理 csv_data=''' A,B,C,D 1.0,2.0,3.0,4.0 5.6,6.0,,8.0 0.0,11.0,12.0,,''' import pand ...
第一章：AI人工智能の数据预处理编程实战 Numpy, Pandas, Matplotlib, Scikit-Learn
本课主题数据中 Independent 变量和 Dependent 变量 Python 数据预处理的三大神器:Numpy.Pandas.Matplotlib Scikit-Learn 的机器学习实战 ...
机器学习之数据预处理，Pandas读取excel数据
Python读写excel的工具库很多,比如最耳熟能详的xlrd.xlwt,xlutils,openpyxl等.其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel.xlutils结 ...
小白学 Python 数据分析（9）：Pandas （八）数据预处理（2）
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
[机器学习]-[数据预处理]-中心化缩放 KNN（二）
上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下召回率和 f1. 真实结果预测结果预测结果正例反例正例 TP 真 ...

随机推荐

登录mysql数据库出现 : ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: NO) ER或者忘记密码
1. 在安装mysql的文件目录中找到配置文件my.ini ,然后右击用记事本打开 2. 打开后,搜索mysqld关键字找到后,在mysqld下面添加skip-grant-tabl ...
Python用户交互以及数据类型
一.用户交互与格式化输出 1.用户交互 1.1什么是用户交互程序等待用户输入的数据,程序执行完毕后为用户反馈信息. 1.2为何程序要与用户交互为了让计算机像人类一样与用户交互 1.3使用方式在p ...
Android开发从系统图库中选择一张图片的方法
刚开始学习OpenCv4Android编程,做了个小demo. 就是一个主界面上添加一个ImageView 两个Button控件. 一个Button用来从系统相册选择一张照片: 另一个Button是用 ...
c#数据类型和表达式
一.数据类型值类型: 1.整数(没有小数) Byte:字节0~255 Char:一个字符 Int 2.有小数范围大的:double双小范围:float单最精确的:十进制decimal 3.bo ...
webpack gulp grunt 简单介绍
本文主要是讲下webpack的相关知识点,理论比较多,因为webpack的功能非常强大,说到的也基本都是经常用到的. 这三个工具都属于前端自动化的工具,都是第三方的,并且国内很多大型团队也都有自己成熟 ...
centos 卸载 docker
yum list installed | grep docker //查看安装过的包 docker-engine.x86_64 17.03.0.ce-1.el7.cen ...
Linux 信号表 signals
Linux支持POSIX reliable signals和POSIX real-time signals. 信号处理进程接受到信号之后会有一些默认的处理方式,如下为5种处理方式: type des ...
ODBC驱动程序丢失解决方法
今天运行SqlDbx连接数据库的时候报错,提示没有找到相应的ODBC driver,打开ODBC管理面板一看,发现里面的驱动程序都不见了.这时想起今天卸载了一个成本核算软件后成这样的,网上搜索一下只需 ...
Android（java）学习笔记97：使用GridView以及重写BaseAdapter
1. BaseAdapter: 对于ListView.GridView.Gallery.Spinner等等,它是它们的适配器,直接继承自接口类Adapter的,使用BaseAdapter时需要重写很多 ...
chrome 浏览器插件开发（二）—— 通信获取页面变量编写chrome插件专用的库
在chrome插件的开发过程中,我遇到了一些问题,在网上找了不少文章,可能是浏览器升级的原因,有一些是有效的也有无效的.下面我简单的分享一下我遇到的坑,以及我把这些坑的解决方案整理而成的js库 —— ...

基于pandas进行数据预处理

引入包和加载数据

清洗数据

查看数据维度以及类型

查看object数据统计信息

缺失值处理

数值属性离散化，object属性数值化

计算特征与target属性之间关系

总结pandas基本操作

基于pandas进行数据预处理的更多相关文章

随机推荐

热门专题