上一节,我们已经安装了numpy,基于numpy,我们继续来看下pandas

pandas用于做数据分析与数据挖掘

pandas安装

使用命令

pip install pandas

出现上图表示安装成功。

pandas又两大数据结构,数据分析相关的都围绕着这两种结构进行:

①Series

②DataFrame

Series用于存储序列这样的一维数据,DataFrame用于存储多维数据

Series对象

主要有2个相关联的数组组合在一起:①主元素数组 ②Index数组

index value
0 -12
1 5
2 7
3 2

1.声明Series对象

从上图可以看出,左侧的是index,右侧的是标签对应的元素

若不指定标签,默认的标签是从0开始的的递增数值标签,最好使用有意义的便签,用以区分和识别每个元素

分别查看组成Series的两个数组,可以像下面一样调用它的两个属性:index(索引)和values(元素)

2.选择内部元素

或者直接使用index访问

选择多个元素时

3.元素赋值

既然知道如何选取单个元素,那么元素赋值就不言而喻了

使用index:

4.用NumPy数组或其他Series对象定义新的Series对象

4.1使用NumPy定义

4.2使用原有Series对象定义

然后,这样做的时候千万要小心,新的Series中的元素是引用的NumPy数组或原有Series对象中的,并不是其副本。简而言之,如果改变原NumPy数组中的值,那么新的Series中的值也会发生改变。

5.筛选元素

获取s对象中所有大于8的元素

6.Series对象运算和数学函数

数学中的加减乘除同样适用Series

7.Series对象的组成元素

Series对象往往包含重复的元素,你很可能想知道里边包含哪些元素,统计元素重复出现的次数或者判断一个元素是否在Series中

接下来,还可以统计重复元素在在Series中出现的次数

isin()函数用来判断所属关系,也就是判断给定的一列元素是否包含在数据结构之中,isin()函数返回布尔值

8.NaN

我们在做运算的时候,如果出现下面这种情况,对负数求对数会怎么样呢?

NaN(not a Nmber,非数值)

当数据结构中若字段为空或者不符合数字的定义时,用这个特定的来表示

创建数据结构时,可以为缺失的项输入np.NaN

isnull()和notnull()函数用来识别没有对应元素的索引时非常好用

上面两个函数返回两个由布尔值组成的Series对象,其元素时True或者False取决于原Series对象是否为NaN.如果是NaN,isnull()函数值返回为True,反之。

9.Series用作字典

在上述例子中,索引数组用字典的键来填充,每个索引所对应的元素为用作索引的键在字典中对应的值。如遇缺失值,pandas就会为添加NaN

10.Series对象之间的运算

根据上图我们可以看出,Series对象之间的运算

只对标签相同的元素求和

DataFrame对象

DataFrame这种列表式数据结构跟工作表(最常见的是Excle工作表)极为相似,其设计初衷是将Series的使用场景由一维扩展到二维。

index first_name last_name sex
0 Tom Green Man
1 Json Smith Man
2 Alice Smith Woman

DataFrame有两个索引组,第一个数组与行相关,第二个数组与列相关。

1.定义DataFrame对象

新建DataFrame对象的常用方法是传递一个dict对象给DataFrame()构造函数。

如果用来创建DataFrame对象的dict对象包含一些用不到的数据,你可以只选择自己感兴趣的东西。在DataFrame构造函数中,用column选项指定需要的列即可。

DataFrame对象跟Series一样,如果Index数组没有明确指定标签,pandas也会为其添加一列从0开始的数值作为索引。如果要指定索引,那么只需要把标签放在数组中,赋给index选项

既然有index,columns选项,那么就可以使用新方法定义DataFrame

例如:使用np.arange(16).reshape((4,4))生成一个4*4型,包含数字0~15的矩阵

2.选取元素

2.1获取列名

如果想知道DataFrame对象所有列的名称,在它上面调用columns属性即可

2.2获取索引

类似的,获取索引列表,调用index属性即可

2.3获取元素

获取存储在数据结构中的元素

2.4获取指定列

选择一列

另一种是用列名称作为DataFrame实例的属性

2.5获取行

至于DataFrame中的行,用ix属性和行的索引值就能获取

同时,也可以使用索引来选取行,第一个索引作为起始,第二个作为结束。

2.6获取具体的元素

如果要获取存储在DataFrame中一个具体的元素,需要指定元素所在的列名称与行名称

3.赋值

3.1添加二级标签

根据index与columns属性即可对DataFrame进行赋值

使用name属性为二级结构指定标签

3.2添加新列

我们从上面可以看出,新增的一列全部都是America,那么我们加入需要将数组更新到这一列怎么做呢

3.2为DataFrame的各列赋一个Series对象也可以创建DataFrame,例如使用np.arange()函数生成一个递增序列

4.元素的所属关系

isin()函数在DataFrame中也是适用的

使用上述的返回结果作为条件,将得到一个新的DataFrame,其中只包含满足条件的元素

5.删除一列

使用del删除

6.筛选

7.用嵌套字典生成DataFrame对象

当不存在对应元素时候,使用NaN填补

8.DataFrame转置

【Python 数据分析】pandas模块的更多相关文章

  1. Python数据分析 Pandas模块 基础数据结构与简介(一)

    pandas 入门 简介 pandas 组成 = 数据面板 + 数据分析工具 poandas 把数组分为3类 一维矩阵:Series 把ndarray强大在可以存储任意数据类型可以专门处理时间数据 二 ...

  2. Python数据分析 Pandas模块 基础数据结构与简介(二)

    重点方法 分组:groupby('列名') groupby(['列1'],['列2'........]) 分组步骤: (spiltting)拆分 按照一些规则将数据分为不同的组 (Applying)申 ...

  3. Python数据分析--Pandas知识点(二)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算 新建一个数据表 ...

  4. Python数据分析--Pandas知识点(三)

    本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...

  5. python 数据分析--pandas

    接下来pandas介绍中将学习到如下8块内容:1.数据结构简介:DataFrame和Series2.数据索引index3.利用pandas查询数据4.利用pandas的DataFrames进行统计分析 ...

  6. 使用Python的pandas模块、mplfinance模块、matplotlib模块绘制K线图

    目录 pandas模块.mplfinance模块和matplotlib模块介绍 pandas模块 mplfinance模块和matplotlib模块 安装mplfinance模块.pandas模块和m ...

  7. Python数据分析-Pandas(Series与DataFrame)

    Pandas介绍: pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的. Pandas的主要功能: 1)具备对其功能的数据结构DataFrame.Series 2)集成时间序 ...

  8. python之pandas模块

    一.pandas模块是基于Numpy模块的,pandas的主要数据结构是Series和DadaFrame,下面引入这样的约定: from pandas import Series,DataFrame ...

  9. Python中pandas模块解析

    Pandas基于两种数据类型: series 与 dataframe . 1.Series 一个series是一个一维的数据类型,其中每一个元素都有一个标签.类似于Numpy中元素带标签的数组.其中, ...

  10. Python数据分析Pandas库方法简介

    Pandas 入门 Pandas简介 背景:pandas是一个Python包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观.它旨在成为在Python中进行实际, ...

随机推荐

  1. hdu 5175(数论)

    Misaki's Kiss again Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Othe ...

  2. 一次处理CentOS服务器被攻击往外发广播包

    情况是这样:我们在某地托管的一台linux服务器,突然接到机房电话说是我们机器将整个IDC网络搞瘫了.外部机器没法访问IDC.  挂掉电话后:我就开始考虑,托管机器的机房是有硬防的,我本身一台机器怎么 ...

  3. AC日记——[Noi2011]阿狸的打字机 bzoj 2434

    2434 思路: 构建ac自动机: 抽离fail树: 根据字符串建立主席树: 在线处理询问: 询问x在y中出现多少次,等同于y有多少字母的fail能走到x: 1a,hahahahah: 代码: #in ...

  4. SecureCRT 的上传和下载操作

    在网上找了两篇文章,分别关于ftp和ssh的上传下载,如果有好的大家可以留言分享,不胜感谢~ 因为关于ftp的比较少,就copy上面,本人并没有验证.关于ssh用sr和sz发现一条错误,而且网上也有解 ...

  5. LCA+差分【p4427】[BJOI2018]求和

    Description master 对树上的求和非常感兴趣.他生成了一棵有根树,并且希望多次询问这棵树上一段路径上所有节点深度的\(k\) 次方和,而且每次的\(k\) 可能是不同的.此处节点深度的 ...

  6. 洛谷——P1358 扑克牌

    题目描述 组合数学是数学的重要组成部分,是一门研究离散对象的科学,它主要研究满足一定条件的组态(也称组合模型)的存在.计数以及构造等方面的问题.组合数学的主要内容有组合计数.组合设计.组合矩阵.组合优 ...

  7. ubuntu 16.04.1 LTS 初始化

    gcc环境------------------sudo apt-get update && \sudo apt-get install build-essential software ...

  8. memcahced部署

    Memcached是一个内存数据库,数据以key/value键值对的形式保存在服务器预先分配的内存区块中,由于Memcached服务自身没有对缓存的数据进行持久化存储的设计,因此,在服务器端的Memc ...

  9. MySQL笔记之视图的使用详解

    原文:http://www.jb51.net/article/36363.htm 1.什么是视图 视图是从一个或多个表中导出来的表,是一种虚拟存在的表. 视图就像一个窗口,通过这个窗口可以看到系统专门 ...

  10. [BZOJ2753]滑雪与时间胶囊

    第一问直接把可以走的边连起来bfs一遍即可 第二问可以用类似kruskal的方法,只不过排序的依据应该变为第一关键字为终点高度(从大到小),第二关键字为边权(从小到大),只排序可以走的边 因为同样高度 ...