python数据处理工具 -- pandas(序列与数据框的构造)
Pandas模块的核心操作对象就是对序列(Series)和数据框(Dataframe)。序列可以理解为数据集中的一个字段,数据框是值包含至少两个字段(或序列)
的数据集。
构造序列
1.通过同质的列表或元组构建
2.通过字典构建
3.通过numpy中的一维数组构建
4.通过数据框Dataframe中的某一列构建
例如:
import pandas as pd
import numpy as np
gdp1 = pd.Series([2.8,3.01,8.99,8.59,5.18])
gdp2 = pd.Series({'北京':2.8,'上海':3.01,'广东':8.99,'江苏':8.59,'浙江':5.18})
gdp3 = pd.Series(np.array((2.8,3.01,8.99,8.59,5.18)))
print(gdp1)
print(gdp2)
print(gdp3)
out:
0 2.80
1 3.01
2 8.99
3 8.59
4 5.18
dtype: float64
北京 2.80
上海 3.01
广东 8.99
江苏 8.59
浙江 5.18
dtype: float64
0 2.80
1 3.01
2 8.99
3 8.59
4 5.18
dtype: float64
如上所示:不管是列表,元组,还是一维数组,构造的序列结果样式会产生两列,第一列属于序列的索引列(也可以理解为行号)
,自动从0开始,第二列才是序列的实际值。通过字典构造的序列就是第二个打印样式,仍然包含两列,所不同的是第一列不再是行号,而是具体的行名称(label),对应到字典中的键,第二列是序列的实际值,对应到字典的值;
序列与一维数组有极高的相似性,获取一维数组元素的所有索引方法都可以用到序列上,而且数组的数学和统计函数也同样可以用到序列上。另外序列会有更多的其他处理方法,如下:
import pandas as pd
import numpy as np
gdp1 = pd.Series([2.8,3.01,8.99,8.59,5.18])
gdp2 = pd.Series({'北京':2.8,'上海':3.01,'广东':8.99,'江苏':8.59,'浙江':5.18})
gdp3 = pd.Series(np.array((2.8,3.01,8.99,8.59,5.18)))
# print(gdp1)
# print(gdp2)
# print(gdp3)
print('行号风格的序列: \n ',gdp1[[0,3,4]])  #取出gdp1中的第1 4 5个元素
print('行名称风格的序列: \n',gdp2[[0,3,4]]) #取出gdp2中第 1 4 5个元素   取出的是字典的键值对
print('行名称风格的序列:\n',gdp2[['上海','江苏','浙江']])     # 取出的是键值对
print('通过numpy函数:\n',np.log(gdp1))     #可以用函数的方式直接取出相应对应的结果的值,通过numpy的方式需要通过其索引
print('通过numpy函数:\n',np.mean(gdp1))     
print('通过序列的方法:\n',gdp1.mean())     #可以看出序列也是支持方法的使用的
out:
行号风格的序列:
0 2.80
3 8.59
4 5.18
dtype: float64
行名称风格的序列:
北京 2.80
江苏 8.59
浙江 5.18
dtype: float64
行名称风格的序列:
上海 3.01
江苏 8.59
浙江 5.18
dtype: float64
通过numpy函数:
0 1.029619
1 1.101940
2 2.196113
3 2.150599
4 1.644805
dtype: float64
通过numpy函数:
5.714
通过序列的方法:
5.714
针对上面的代码需要说明几点,如果序列是行名称风格,既可以使用位置(行号)索引,又可以使用标签(行名称)索引;如果需要对序列进行数序函数的运算,一般首选numpy模块,因为pandas模块在这方面比较缺乏;如果是对序列做统计运算,既可以使numpy模块中的函数,也可以使用序列中的方法。一般首选
序列方法,因为序列方法更加丰富一些,如计算序列的偏度,峰度,而Numpy是没有这样的函数的。
构造数据框
数据实质上就是一个数据集,数据集的行代表每一条观测,数据集的列则代表各个变量。在一个数据框中可以存放不同数据类型的序列,如整数型,浮点型,字符型和日期时间型,而数组和序列则没有这样的优势,因为他们只能存放同质数据。构造一个数据库可以应用如下方式:
1.通过嵌套的列表或元组构造
2.通过字典构造
3.通过二维数组构造
4.通过外部数据的读取构造。
示例:
import pandas as pd 
import numpy as np
df1 = pd.DataFrame([['张三',23,'男'],['李四',27,'女'],['王五',26,'女']])
df2 = pd.DataFrame({'姓名':['张三','李四','王五'],'年龄':[23,27,26],'性别':['男','女','女']})
df3 = pd.DataFrame(np.array([['张三',23,'男'],['李四','27','女'],['王五',26,'女']]))
print('嵌套列表构造数据框:\n',df1)
print('字典构造数据框:\n',df2)
print('二维数组构造数据框:\n',df3)
out:
嵌套列表构造数据框:
0 1 2
0 张三 23 男
1 李四 27 女
2 王五 26 女
字典构造数据框:
姓名 年龄 性别
0 张三 23 男
1 李四 27 女
2 王五 26 女
二维数组构造数据框:
0 1 2
0 张三 23 男
1 李四 27 女
2 王五 26 女
构造数据框需要使用到Pandas模块中的DataFrame函数,如果通过嵌套列表或元组构造数据框,则需要将数据框的每一行观测座位嵌套列表或元组的元素;如果通过二维数组构造数据框,则需要将数据框的每一行写入到数组的行中;如果通过字典构造数据框,则字典的键构成数据框的变量名,对应的值构成数据的观测。尽管上面的代码都可以构造数据框,但是讲嵌套列表,元组或二维数组转换为数据框时,数据框是没有具体的变量名的,只有从0到N的列号。所以,如果需要手工构造数据框的话,一般首选字典方法。
外部数据的读取
外部数据的读取来构造数据框的内容会比较多,下一篇再来记录...
python数据处理工具 -- pandas(序列与数据框的构造)的更多相关文章
- Python 数据处理库 pandas 入门教程
		
Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...
 - Python 数据处理库pandas教程(最后附上pandas_datareader使用实例)
		
0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...
 - 吴裕雄 数据挖掘与分析案例实战(4)——python数据处理工具:Pandas
		
# 导入模块import pandas as pdimport numpy as np # 构造序列gdp1 = pd.Series([2.8,3.01,8.99,8.59,5.18])print(g ...
 - python数据分析工具——Pandas、StatsModels、Scikit-Learn
		
Pandas Pandas是 Python下最强大的数据分析和探索工具.它包含高级的数据结构和精巧的工具,使得在 Python中处理数据非常快速和简单. Pandas构建在 Numpy之上,它使得以 ...
 - pandas.DataFrame——pd数据框的简单认识、存csv文件
		
接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, detai ...
 - Python数据分析之Pandas读写外部数据文件
		
1 引言 数据分析.数据挖掘.可视化是Python的众多强项之一,但无论是这几项中的哪一项都必须以数据作为基础,数据通常都存储在外部文件中,例如txt.csv.excel.数据库.本篇中,我们来捋一捋 ...
 - python:将字典转化为数据框
		
my_dict = {,,} import pandas as pd pd.Series(my_dict) fuck i you dtype: int64 一个key只有一个value的字典如果直接转 ...
 - pandas中获取数据框的行、列数
		
获取数据框的行.列数 # 获取行数 df.shape[0] # 获取行数 len(df) # 获取列数 df.shape[1]
 - python数据分析工具 | pandas
		
pandas是python下强大的数据分析和探索工具,是的python在处理数据时非常快速.简单.它是构建在numpy之上的,包含丰富的数据处理函数,支持时间序列分析功能,支持灵活处理缺失数据. pa ...
 
随机推荐
- mongo安装和cmd运行命令
			
一.安装方式 安装mongodb :www.mongodb.com next-->complete-->Instal MongoD as Service 不勾选 --> Instal ...
 - MySQL 容器修改配置文件后无法启动问题(终极解决办法)
			
docker inspect 容器名称或容器 ID 例如: docker inspect mysql cd /var/lib/docker/overlay2/1d7877d715b9c730103e ...
 - Linux中配置端口转发(反向代理)
			
在conf.d目录下建一个文件, 以conf为结尾(如果没有conf.d目录,就自己新建一个) server { listen 80; server_name 127.0.0.1; #这个IP是你服务 ...
 - GitOps初阶指南:将DevOps扩展至K8S
			
本文转自Rancher Labs 在过去十年的编程中,出现了一些革命性的转变.其中之一是源于围绕DevOps的实践,它将开发和运维团队整合到一个共享的工作流程中,此外还有持续集成和持续交付(CI/CD ...
 - Python os.close() 方法
			
概述 os.close() 方法用于关闭指定的文件描述符 fd.高佣联盟 www.cgewang.com 语法 close()方法语法格式如下: os.close(fd); 参数 fd -- 文件描述 ...
 - PHP pos() 函数
			
实例 输出数组中的当前元素的值: <?php$people = array("Peter", "Joe", "Glenn", &quo ...
 - 2020牛客暑期多校训练营 第二场 B Boundary 计算几何 圆 已知三点求圆心
			
LINK:Boundary 计算几何确实是弱项 因为好多东西都不太会求 没有到很精通的地步. 做法很多,先说官方题解 其实就是枚举一个点 P 然后可以发现 再枚举一个点 然后再判断有多少个点在圆上显然 ...
 - JQuery插件,轻量级表单模型验证(续 二)
			
好不容易,有心思,那就把没做完的JQuery轻量级表单验证做完吧 之前做到了空参数验证的,现在增加带参数的验证. 附上html <form id="ValidataForm" ...
 - @property@classmethod@staticmethod
			
一.静态属性@property将方法标记成数据属性:可以访问实例和类的属性 @classmethod标记成类的方法,不需要实例化,可以类直接调用的方法.可以访问类的属性方法,不能访问实例的 class ...
 - “随手记”开发记录day12
			
就我们团队昨天的讨论,今天进行更改. 今天我们先简单的更改了之前的粉色背景图,因为用户反应总览界面的“总览”二字,是深粉色背景不太美观.进过多次更改之后使颜色变得更舒适.