有两种丢失数据

——None

——np.nan(NaN)

None是python自带的,其类型为python object。因此,None不能参与到任何计算中

Object类型的运算比int类型的运算慢的多

计算不同数据类型求和时间

%timeit np.arange(1e5,dtype=xxx).sum()

%timeit是指python表达式或语句的执行时间

Pandas中的none与np.nan都视作np.nan

数据清洗

df.loc[index,column] ------>元素索引,肯定可以修改

df[column][index] --------->列是属性,肯定可以修改

df.loc[index][column] ----->从df中取出了样本,对取出来的数据进行了修改,原数据没变

现获取列,在获取行

如:df["python"][3] = np.nan

先获取行,再获取列

df.loc[3]["python"] = np.nan

先获取行,是将样本数据取出来,在内存中的内存地址就不一样了,修改数据失败

df.loc[3,5] =np.nan

Pandas中None与np.NaN的操作

Isnull():判断是否有空数据

Notnoll():判断是否没有空数据

Dropna():过滤丢失数据

Fillna():填充丢失数据

(1)判断函数Isnull()和Notnull()

查找空数据

如:cond=df.isnull().any(axis=1)

df[cond]

过滤掉空数据

如:cond = df.notnull().all(axis=1)

df[cond]

(2)过滤函数Dropna()

如:df.dropna(),删除df表中的含有空数据的样本

可以选则过滤的是行还是列(默认过滤行)

也可以选择过滤的方式how=“all”

(3)数据填充fillna()

Fillna()属性

['value=None', 'method=None', 'axis=None', 'inplace=False', 'limit=None', 'downcast=None', '**kwargs']

 

对浮点数小数位数进行限定

pd.set_option("display.float_format",lambda x:"%0.1f"%(x))     #保留一位为%0.1,保留两位为%0.2,以此类推

注意:

1.对于空数据,一般进行填充时填充该列的平均值、中位数、众数进行填充。

2.对于和是用什么数据进行填充还得根据实际情况来决定

3.正态分布使用平均值和中位数差别不大。

**计算平均数的用mean()

如:value=df.mean()

df.fillna(value)

**计算中位数用:median()

如:value1 = df.median()

df.fillna(value1)

填充数据可选择行方向和列方向的向前填充或是向后填充

df.fillna(method="bfill",axis=1)#向后填充

df.fillna(method="ffill",axis=1) #向前填充

df.fillna(value=values,limit=1)  #限制填充的行数,默认从第一行开始

**统计众数:np.unique(s)

使用众数进行填充同上

Pandas中文件的读取和写入

将数据存储到csv格式的文本

s1.to_csv("./data1.csv",sep=',',index = False)

#存成csv格式,csv就是txt格式,用逗号进行分割,index表示是否将索引也存储进去

#注意重点是sep分隔符和index索引的设置

将csv格式的文本数据导入到jupyter中

如:pd.read_csv("./data1.csv")

将数据存储成html格式

s3.to_html("./data.html")

pd.read_excel(“./data.htm”)

将文件存储成json格式

s3.to_json("./data.json")

pd.read_json("./data.json")

将文件存储成excel格式的文件

s3.to_excel("./data.xls")

pd.read_excel("./data.xls")

有两种丢失数据

——None

——np.nan(NaN)

None是python自带的,其类型为python object。因此,None不能参与到任何计算中

Object类型的运算比int类型的运算慢的多

计算不同数据类型求和时间

%timeit np.arange(1e5,dtype=xxx).sum()

%timeit是指python表达式或语句的执行时间

Pandas中的none与np.nan都视作np.nan

数据清洗

df.loc[index,column] ------>元素索引,肯定可以修改

df[column][index] --------->列是属性,肯定可以修改

df.loc[index][column] ----->从df中取出了样本,对取出来的数据进行了修改,原数据没变

现获取列,在获取行

如:df["python"][3] = np.nan

先获取行,再获取列

df.loc[3]["python"] = np.nan

先获取行,是将样本数据取出来,在内存中的内存地址就不一样了,修改数据失败

df.loc[3,5] =np.nan

Pandas中None与np.NaN的操作

Isnull():判断是否有空数据

Notnoll():判断是否没有空数据

Dropna():过滤丢失数据

Fillna():填充丢失数据

(1)判断函数Isnull()和Notnull()

查找空数据

如:cond=df.isnull().any(axis=1)

df[cond]

过滤掉空数据

如:cond = df.notnull().all(axis=1)

df[cond]

(2)过滤函数Dropna()

如:df.dropna(),删除df表中的含有空数据的样本

可以选则过滤的是行还是列(默认过滤行)

也可以选择过滤的方式how=“all”

(3)数据填充fillna()

Fillna()属性

['value=None', 'method=None', 'axis=None', 'inplace=False', 'limit=None', 'downcast=None', '**kwargs']

 

对浮点数小数位数进行限定

pd.set_option("display.float_format",lambda x:"%0.1f"%(x))

对于空数据,一般进行填充时填充该列的平均值、中位数、众数进行填充。

对于和是用什么数据进行填充还得根据实际情况来决定

正态分布使用平均值和中位数差别不大。

**计算平均数的用mean()

如:value=df.mean()

df.fillna(value)

**计算中位数用:median()

如:value1 = df.median()

df.fillna(value1)

填充数据可选择行方向和列方向的向前填充或是向后填充

df.fillna(method="bfill",axis=1)#向后填充

df.fillna(method="ffill",axis=1) #向前填充

df.fillna(value=values,limit=1)  #限制填充的行数,默认从第一行开始

**统计众数:np.unique(s)

使用众数进行填充同上

Pandas中文件的读取和写入

将数据存储到csv格式的文本

s1.to_csv("./data1.csv",sep=',',index = False)

#存成csv格式,csv就是txt格式,用逗号进行分割,index表示是否将索引也存储进去

#注意重点是sep分隔符和index索引的设置

将csv格式的文本数据导入到jupyter中

如:pd.read_csv("./data1.csv")

将数据存储成html格式

s3.to_html("./data.html")

pd.read_excel(“./data.htm”)

将文件存储成json格式

s3.to_json("./data.json")

pd.read_json("./data.json")

将文件存储成excel格式的文件

s3.to_excel("./data.xls")

pd.read_excel("./data.xls")

Pandas中数据的处理的更多相关文章

  1. pandas中数据框DataFrame获取每一列最大值或最小值

    1.python中数据框求每列的最大值和最小值 df.min() df.max()

  2. pandas中数据聚合【重点】

    数据聚合 数据聚合是数据处理的最后一步,通常是要使每一个数组生成一个单一的数值. 数据分类处理: 分组:先把数据分为几组 用函数处理:为不同组的数据应用不同的函数以转换数据 合并:把不同组得到的结果合 ...

  3. pandas中数据框的一些常见用法

    1.创建数据框或读取外部csv文件 创建数据框数据 """ 设计数据 """ import pandas as pd data = {&qu ...

  4. 在Pandas中直接加载MongoDB的数据

    在使用Pandas进行数据处理的时候,我们通常从CSV或EXCEL中导入数据,但有的时候数据都存在数据库内,我们并没有现成的数据文件,这时候可以通过Pymongo这个库,从mongoDB中读取数据,然 ...

  5. (数据科学学习手札52)pandas中的ExcelWriter和ExcelFile

    一.简介 pandas中的ExcelFile()和ExcelWriter(),是pandas中对excel表格文件进行读写相关操作非常方便快捷的类,尤其是在对含有多个sheet的excel文件进行操控 ...

  6. (数据科学学习手札68)pandas中的categorical类型及应用

    一.简介 categorical是pandas中对应分类变量的一种数据类型,与R中的因子型变量比较相似,例如性别.血型等等用于表征类别的变量都可以用其来表示,本文就将针对categorical的相关内 ...

  7. (数据科学学习手札69)详解pandas中的map、apply、applymap、groupby、agg

    *从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方 ...

  8. Pandas中查看列中数据的种类及个数

    Pandas中查看列中数据的种类及个数 读取数据 import pandas as pd import numpy as np filepath = 'your_file_path.csv' data ...

  9. Pandas中DataFrame数据合并、连接(concat、merge、join)之merge

    二.merge:通过键拼接列 类似于关系型数据库的连接方式,可以根据一个或多个键将不同的DatFrame连接起来. 该函数的典型应用场景是,针对同一个主键存在两张不同字段的表,根据主键整合到一张表里面 ...

随机推荐

  1. Centos下磁盘管理的常用命令记录(如查找大文件)

    Centos下磁盘管理的常用命令记录 查看系统磁盘空间占用,使用命令: df -h 结果: 查看磁盘inode使用情况,如果inode用完了,磁盘就没法写入新的内容了: df -i 结果: 如何查找磁 ...

  2. CC10:访问单个节点的删除

    题目 实现一个算法,删除单向链表中间的某个结点,假定你只能访问该结点. 给定待删除的节点,请执行删除操作,若该节点为尾节点,返回false,否则返回true 解法 这道题并不难,主要是题目中这句话确定 ...

  3. js 去除字符串空白符

    var a="      123456" varb=a.replace(/(^\s*)/g, "");

  4. redis之安装

    redis之安装 redis redis介绍 redis是一个key-value存储系统,菲关系型数据库.和Memcached类似,他支持存储的value类型相对更多,包括字符串.列表.哈希散列表.集 ...

  5. 什么是.NET for Apache Spark?

    什么是.NET for Apache Spark? 分享一个.NET平台开源免费跨平台的大数据分析框架.NET for Apache Spark for Apache Spark   今天早上六点半左 ...

  6. 063 Unique Paths II 不同路径 II

    这是“不同路径” 的进阶问题:现在考虑网格中有障碍物.那样将会有多少条不同的路径从左上角到右下角?网格中的障碍物和空位置分别用 1 和 0 来表示.例如,如下所示在 3x3 的网格中有一个障碍物.[  ...

  7. 博弈论 && 题目

    终于我也开始学博弈了,说了几个月,现在才学.学多点套路,不深学.(~~) 参考刘汝佳蓝书p132 nim游戏: 假设是两维的取石子游戏,每次可以在任意一堆拿任意数量个(至少一根,因为这样游戏的状态集有 ...

  8. setState异步函数

    changeLeader(value){ console.log(value)   this.setState({   leader:value   },() => {   console.lo ...

  9. str中的join方法,fromkeys(),set集合,深浅拷贝(重点)

    一丶对之前的知识点进行补充 1.str中的join方法.把列表转换成字符串 # 将列表转换成字符串,每个元素之间用_拼接 s = "_".join(["天",& ...

  10. python3发送邮件01(简单例子,不带附件)

    # -*- coding:utf-8 -*-import smtplibfrom email.header import Headerfrom email.mime.text import MIMET ...