pandas知识点（数据结构）

1.Series

生成一维数组，左边索引，右边值：

In [3]: obj = Series([1,2,3,4,5])

In [4]: obj

Out[4]:

0    1

1    2

2    3

3    4

4    5

dtype: int64

In [5]: obj.values

Out[5]: array([1, 2, 3, 4, 5], dtype=int64)

In [6]: obj.index

Out[6]: RangeIndex(start=0, stop=5, step=1)

创建对各个数据点进行标记的索引：

In [7]: obj2 = Series([4,1,9,7], index=["a","c","e","ff"])

In [8]: obj2

Out[8]:

a     4

c     1

e     9

ff    7

dtype: int64

In [9]: obj2.index

Out[9]: Index(['a', 'c', 'e', 'ff'], dtype='object')

取一个值或一组值：

In [10]: obj2["c"]

Out[10]: 1

In [11]: obj2[["c","e"]]

Out[11]:

c    1

e    9

dtype: int64

数组运算，会显示索引：

In []: obj2[obj2>]

Out[]:

a

e

ff

dtype: int64

Series还可以看作有序的字典，很多字典操作可以使用：

In [13]: "c" in obj2

Out[13]: True

直接用字典创建Series：

In [14]: data = {"name":"liu","year":18,"sex":"man"}

In [15]: obj3 = Series(data)

In [16]: obj3

Out[16]:

name    liu

year     18

sex     man

dtype: object

用字典结合列表创建Series：

In [17]: list1 = ["name","year","mobile"]

In [18]: obj4 = Series(data,index=list1)

In [19]: obj4

Out[19]:

name      liu

year       18

mobile    NaN

dtype: object

PS：因为data字典中没有mobile所以值为NaN

检测数据是否缺失：

In [20]: pd.isnull(obj4)

Out[20]:

name      False

year      False

mobile     True

dtype: bool

In [21]: pd.notnull(obj4)

Out[21]:

name       True

year       True

mobile    False

dtype: bool

In [22]: obj4.isnull()

Out[22]:

name      False

year      False

mobile     True

dtype: bool

In [23]: obj4.notnull()

Out[23]:

name       True

year       True

mobile    False

dtype: bool

Series的name属性：

In [7]: obj4.name = "hahaha"

In [8]: obj4.index.name = "state"

In [9]: obj4

Out[9]:

state

name      liu

year       18

mobile    NaN

Name: hahaha, dtype: object

2.DataFrame

构建DataFrame

In [13]: data = {

"state":[1,1,2,1,1],

"year":[2000,2001,2002,2004,2005],

"pop":[1.5,1.7,3.6,2.4,2.9]

}

In [14]: frame = DataFrame(data)

In [15]: frame

Out[15]:

   state  year  pop

0      1  2000  1.5

1      1  2001  1.7

2      2  2002  3.6

3      1  2004  2.4

4      1  2005  2.9

设定行与列的名称，如果数据找不到则产生NA值：

In [18]: frame2 = DataFrame(

data,

columns=["year","state","pop","debt"],

index=["one","two","three","four","five"]

)

In [19]: frame2

Out[19]:

       year  state  pop debt

one    2000      1  1.5  NaN

two    2001      1  1.7  NaN

three  2002      2  3.6  NaN

four   2004      1  2.4  NaN

five   2005      1  2.9  NaN

将DataFrame的列获取成为Series：

In [7]: frame2.year

Out[7]:

one      2000

two      2001

three    2002

four     2004

five     2005

Name: year, dtype: int64

PS：返回的索引不变，且name属性被设置了

获取行：

In [11]: frame2.loc["three"]

Out[11]:

year     2002

state       2

pop       3.6

debt      NaN

Name: three, dtype: object

赋值列：

In [12]: frame2['debt'] = 16.5

In [13]: frame2

Out[13]:

       year  state  pop  debt

one    2000      1  1.5  16.5

two    2001      1  1.7  16.5

three  2002      2  3.6  16.5

four   2004      1  2.4  16.5

five   2005      1  2.9  16.5

如果赋值列表或数组，长度需要相等；如果赋值Series，则精确匹配索引

In [17]: val = Series([1.2,1.5,1.7], index=["two","four","five"])

In [18]: frame2['debt'] = val

In [19]: frame2

Out[19]:

       year  state  pop  debt

one    2000      1  1.5   NaN

two    2001      1  1.7   1.2

three  2002      2  3.6   NaN

four   2004      1  2.4   1.5

five   2005      1  2.9   1.7

如果列不存在，则创建：

In [21]: frame2["eastern"] = frame2.state == 1

In [22]: frame2

Out[22]:

       year  state  pop  debt  eastern

one    2000      1  1.5   NaN     True

two    2001      1  1.7   1.2     True

three  2002      2  3.6   NaN    False

four   2004      1  2.4   1.5     True

five   2005      1  2.9   1.7     True

对于嵌套字典，DataFrame会解释为外层为列，内层为行索引：

In [23]: dic = {"name":{"one":"liu","two":"rui"},"year":{"one":"","two":""}}

In [24]: frame3 = DataFrame(dic)

In [25]: frame3

Out[25]:

    name year

one  liu   23

two  rui   22

显示行，列名：

In [26]: frame3.index.name = "index"

In [27]: frame3.columns.name = "state"

In [28]: frame3

Out[28]:

state name year

index

one    liu   23

two    rui   22

返回二维ndarray形式的数据：

In [29]: frame3.values

Out[29]:

array([['liu', ''],

       ['rui', '']], dtype=object)

3.索引对象

In [30]: obj = Series(range(3),index=["a","b","c"])

In [31]: index = obj.index

In [32]: index

Out[32]: Index(['a', 'b', 'c'], dtype='object')

index对象不可修改的，使得index在多个数据结构中可以共享

In [35]: index = pd.Index(np.arange(3))

In [36]: obj2 = Series([1.5,0.5,2],index=index)

In [37]: obj2.index is index

Out[37]: True

pandas知识点（数据结构）的更多相关文章

机器学习-Pandas 知识点汇总(吐血整理)
Pandas是一款适用很广的数据处理的组件,如果将来从事机械学习或者数据分析方面的工作,咱们估计70%的时间都是在跟这个框架打交道.那大家可能就有疑问了,心想这个破玩意儿值得花70%的时间吗?咱不是还 ...
Pandas 的数据结构
Pandas的数据结构导入pandas: 三剑客 from pandas import Series,DataFrame import pandas as pd import numpy as np ...
pandas的数据结构之series
Pandas的数据结构 1.Series Series是一种类似于一维数组的对象,由下面两个部分组成: index:相关的数据索引标签 values:一组数据(ndarray类型) series的创建 ...
Python数据分析--Pandas知识点(三)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) Python数据分析--Pandas知识点(二) 下面将是在知识点一, ...
Pandas的使用（3）---Pandas的数据结构
Pandas的使用(3) Pandas的数据结构 1.Series 2.DataFrame
Pandas之数据结构
pandas入门由于最近公司要求做数据分析,pandas每天必用,只能先跳过numpy的学习,先学习大Pandas库 Pandas是基于Numpy构建的,让以Numpy为中心的应用变得更加简单 pa ...
Python数据分析--Pandas知识点(二)
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘. Python数据分析--Pandas知识点(一) 下面将是在知识点一的基础上继续总结. 13. 简单计算新建一个数据表 ...
pandas知识点脑图汇总
参考文献: [1]Pandas知识点脑图汇总
pandas中数据结构-Series
pandas中数据结构-Series pandas简介 Pandas是一个开源的,BSD许可的Python库,为Python编程语言提供了高性能,易于使用的数据结构和数据分析工具.Python与Pan ...

随机推荐

Sqoop Import HDFS
Sqoop import应用场景——密码访问注:测试用表为本地数据库中的表 1.明码访问 sqoop list-databases \ --connect jdbc:mysql://202.193. ...
Bootstrap学习笔记（三）
三.组件 1.图标字体图标字体本质是文字,而不是图形!可以无限放大或修改颜色. 使用方式:<span class="glyphicon glyphicon-XXX"> ...
设置mapcontrol的鼠标样式
http://blog.itpub.net/14999074/viewspace-586515/ mapcontrol的鼠标样式 this.axMapControl1.MousePointer=esr ...
搭建zabbix服务器监控
搭建zabbix 监控服务服务器环境Centos 7.3 修改网卡名称高并发优化 Web环境 nginx + php-fpm 必须对nginx配置有连接优化使用systemd服务启动nginx和 ...
Kyligence Analytics Platform Enterprise
平台: arm 类型: ARM 模板软件包: kap 2.3 kyanalyzer 2.3 apache kylin basic software bi big data cube data war ...
window下安装scala搭载Intellij IDE
最近由于公司业务需求,要用到scala,编写还是windows下较好,linux下运行比较靠谱,废话少说,直接上步骤! 1.首先安装java环境 jdk下载地址:http://www.oracle.c ...
COGS 11. 运输问题1
★★☆ 输入文件:maxflowa.in 输出文件:maxflowa.out 简单对比时间限制:1 s 内存限制:128 MB [问题描述] 一个工厂每天生产若干商品,需运输到 ...
Dll注入：Ring3 层 APC注入
APC,即Asynchronous procedure call,异步程序调用APC注入的原理是:在一个进程中,当一个执行到SleepEx()或者WaitForSingleObjectEx()时,系统 ...
标准IO ——将A文件fpd第3个字节之后的内容复制到文件fps
/* *使用标准IO ——将A文件fpd第3个字节之后的内容复制到文件fps 流程: 1.创建两个流,链接目标文件和源文件 2.输入流的基准点偏移四个单位然后输入缓冲区 3.输出流读取缓冲区数据送入文 ...
使用Java+SAP云平台+SAP Cloud Connector调用ABAP On-Premise系统里的函数
最近Jerry接到一个原型开发的任务,需要在微信里调用ABAP On Premise系统(SAP CRM On-Premise)里的某些函数.具体场景和我之前的公众号文章 Cloud for Cust ...

pandas知识点（数据结构）

pandas知识点（数据结构）的更多相关文章

随机推荐

热门专题