数据分析 大数据之路 五 pandas 报表
pandas: 在内存中或对象,会有一套基于对象属性的方法, 可以视为 pandas 是一个存储一维表,二维表,三维表的工具,
主要以二维表为主
一维的表, (系列(Series))
二维的表,DataFrame, 也叫报表
三维的表,(面板(Panel))
文本格式 :
CSV 以文本方式存储, item 之间用逗号分割,记录与记录之间以回车分开 , 可以用 excel 方式打开
json 格式 , 以 key ,value 方式存储
import numpy as np
import pandas as pd # data 里的 key 可以看成是表头,
data = {
'animal ': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
'age ': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
'visits' : [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
'priority' : ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']
} # 给每一条记录起个别名
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'] df = pd.DataFrame(data, index=labels)
print(df)
age animal priority visits
a 2.5 cat yes 1
b 3.0 cat yes 3
c 0.5 snake no 2
d NaN dog yes 3
e 5.0 dog no 2
f 2.0 cat no 3
g 4.5 snake no 1
h NaN cat yes 1
i 7.0 dog no 2
j 3.0 dog no 1
df.head() , head() 默认输出前 5 条记录
df [1:5] 也可以通过切片方式操作 (行索引)
df [['age', 'animal']] (列索引)
df.iloc[0:3, 0:3] 指定行,列输出
age animal priority
a 2.5 cat yes
b 3.0 cat yes
c 0.5 snake no
缺失数据/异常数据处理
Ø 找到缺失值
df[df['age'].isnull()]
填充缺失值
df['age'].fillna(0, inplace=True)
将字符值替换成布尔值
df['priority'] = df['priority'].map({'yes': True, 'no': False})
2.4 可
数据分析 大数据之路 五 pandas 报表的更多相关文章
- 数据分析 大数据之路 六 matplotlib 绘图工具
		散点图 #导入必要的模块 import numpy as np import matplotlib.pyplot as plt #产生测试数据 x = np.arange(1,10) y = x ... 
- 数据分析 大数据之路 四 numpy 2
		NumPy 数学函数 NumPy 提供了标准的三角函数:sin().cos().tan(import numpy as np a = np.array([0,30,45,60,90])print (' ... 
- 数据分析 大数据之路 三 numpy
		import numpy as np a = np.arange(9) b = a.reshape(3,3) print(b) print(b.max(axis=0)) # axis=0 示为 Y 轴 ... 
- CentOS6安装各种大数据软件 第五章:Kafka集群的配置
		相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ... 
- 胖子哥的大数据之路(7)- 传统企业切入核心or外围
		一.引言 昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问 ... 
- 胖子哥的大数据之路(6)- NoSQL生态圈全景介绍
		引言: NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网.给大家分享. 正文: The NoSQL Ecosystem 目录 The NoSQL Eco ... 
- 大数据之路week06--day07(Hadoop生态圈的介绍)
		Hadoop 基本概念 一.Hadoop出现的前提环境 随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ... 
- 胖子哥的大数据之路(10)- 基于Hive构建数据仓库实例
		一.引言 基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据 三.建表脚本 C ... 
- 胖子哥的大数据之路(9)-数据仓库金融行业数据逻辑模型FS-LDM
		引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问 ... 
随机推荐
- python3 练手实例3 摄氏温度与华氏温度转换
			def wd(): w=input('请输入一个摄氏温度或者一个华氏温度,如,34c/C or 34f/F:') if w[-1] in ['c','C']: w=float(w[:-1]) hs=1 ... 
- 原生JS实现banner图的滚动与跳转
			HTML部分: <div id="banner"> <!--4张滚动的图片--> <div id="inside"> < ... 
- 自定义Maven Archetype模板
			1. 目的 自定义Maven Archetype模板目的为了把自己辛苦搭建的基础项目可以作为模板, 方便以后可以快速的创建类似项目,免去每次搭建的麻烦 2.把基础项目打包生成archetype项目 在 ... 
- centos 7.2 安装mongodb 3.4.4免编译
			/根目录下: 获取命令: wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.4.4.tgz 解压命令: tar zvxf mon ... 
- python封装configparser模块获取conf.ini值
			configparser模块是python自带的从文件中获取固定格式参数的模块,因为是python只带的,大家用的应该很多,我觉得这个参数模块比较灵活,添加参数.修改参数.读取参数等都有对应的参数供用 ... 
- Triplet Loss(转)
			参考:https://blog.csdn.net/u013082989/article/details/83537370 作用:用于对差异较小的类别进行区分 
- 题解-HAOI2018全套
			去冬令营转了一圈发现自己比别人差根源在于刷题少,见过的套路少(>ω<) 于是闲来无事把历年省选题做了一些 链接放的都是洛谷的,bz偷懒放的也是链接 AM.T1 奇怪的背包 Problem ... 
- Toad DBA Suite for Oracle 12.6 64-bit Commercial 简单连接
			注意:Toad DBA Suite for Oracle 12.6 64-bit Commercial安装包推荐去官网下载,中文版的最好不要使用绿色免安装版,不然连接会报各种错误 1.安装:双击下载好 ... 
- Python——类与对象,异常处理
			类 class C1: def setdata(self,value): self.data = value def display(self): print(self.data) class C2( ... 
- Celery初识及简单实例
			Celery是一个“自带电池”的任务队列.易于使用,可以轻易入门,它遵照最佳实践设计,使产品可以扩展,或与其他语言集成,并且它自带了在生产环境中运行这样一个系统所需的工具和支持.本文介绍基础部分: 选 ... 
