数据分析大数据之路五 pandas 报表

pandas: 在内存中或对象，会有一套基于对象属性的方法，可以视为 pandas 是一个存储一维表，二维表，三维表的工具，

主要以二维表为主

一维的表，　　　　　　（系列(Series)）

二维的表，DataFrame，也叫报表

三维的表，（面板(Panel)）

文本格式：

CSV 以文本方式存储， item 之间用逗号分割，记录与记录之间以回车分开 , 可以用 excel 方式打开

json 格式 , 以 key ，value 方式存储

import numpy as np

import pandas as pd

# data 里的 key 可以看成是表头，

data = {

    'animal   ': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],

    'age      ': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],

    'visits'   : [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],

    'priority' : ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']

    }

# 给每一条记录起个别名

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)

print(df)

   age animal priority  visits

a  2.5    cat      yes       1

b  3.0    cat      yes       3

c  0.5  snake       no       2

d  NaN    dog      yes       3

e  5.0    dog       no       2

f  2.0    cat       no       3

g  4.5  snake       no       1

h  NaN    cat      yes       1

i  7.0    dog       no       2

j  3.0    dog       no       1

　　df.head() ， head() 默认输出前 5 条记录

　　df [1:5] 也可以通过切片方式操作（行索引）

　　df [['age', 'animal']] （列索引）

　　 df.iloc[0:3, 0:3] 指定行，列输出

   age       animal    priority

a        2.5       cat      yes

b        3.0       cat      yes

c        0.5     snake       no

缺失数据/异常数据处理
Ø 找到缺失值
df[df['age'].isnull()]

填充缺失值
df['age'].fillna(0, inplace=True)

将字符值替换成布尔值
df['priority'] = df['priority'].map({'yes': True, 'no': False})

2.4 可

数据分析大数据之路五 pandas 报表的更多相关文章

数据分析大数据之路六 matplotlib 绘图工具
散点图 #导入必要的模块 import numpy as np import matplotlib.pyplot as plt #产生测试数据 x = np.arange(1,10) y = x ...
数据分析大数据之路四 numpy 2
NumPy 数学函数 NumPy 提供了标准的三角函数:sin().cos().tan(import numpy as np a = np.array([0,30,45,60,90])print (' ...
数据分析大数据之路三 numpy
import numpy as np a = np.arange(9) b = a.reshape(3,3) print(b) print(b.max(axis=0)) # axis=0 示为 Y 轴 ...
CentOS6安装各种大数据软件第五章：Kafka集群的配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
胖子哥的大数据之路（7）- 传统企业切入核心or外围
一.引言昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问 ...
胖子哥的大数据之路（6）- NoSQL生态圈全景介绍
引言: NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网.给大家分享. 正文: The NoSQL Ecosystem 目录 The NoSQL Eco ...
大数据之路week06--day07（Hadoop生态圈的介绍）
Hadoop 基本概念一.Hadoop出现的前提环境随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...
胖子哥的大数据之路（10）- 基于Hive构建数据仓库实例
一.引言基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据三.建表脚本 C ...
胖子哥的大数据之路（9）-数据仓库金融行业数据逻辑模型FS-LDM
引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问 ...

随机推荐

javac编译多个java文件以及-cp、-classp、-sourcepath
//编译多个文件 javac path_of_file_a/a.java path_of_file_b/b.java path_of_file_c/c.java -cp(classpath) 与 ...
verdi\debussy的使用技巧
verdi\debussy的使用技巧转载from 大西瓜FPGA 大西瓜FPGA-->https://daxiguafpga.taobao.com fsdb display Debussy本身 ...
eval()和$.parseJSON()注意事项
在前后端分离大行其道XXX(巴拉巴拉的废话不多讲了).描述实际应用场景:后台组装数据,返回到前台调用. 刚开始没有注意“后台返回字符串_1”的形式,使用eval()处理. 只是返回了字符串,不是严格意 ...
题解 P3246 【[HNOI2016]序列】
很久之前做过这道题,但是跑得贼慢,现在用了可以被卡成 n m 的笛卡尔树做法,发现跑得贼快[雾 noteskey 介绍一种复杂度错误然鹅在随机数据下跑得贼快的算法: 笛卡尔树方法就是 \(O~ n\ ...
【原创】大数据基础之Logstash（4）高可用
logstash高可用体现为不丢数据(前提为服务器短时间内不可用后可恢复比如重启服务器或重启进程),具体有两个方面: 进程重启(服务器重启) 事件消息处理失败在logstash中对应的解决方案为: ...
[转]Jupyter默认目录和默认浏览器修改
转摘于:https://blog.csdn.net/caterfreelyf/article/details/79774311 1.打开cmd,首先进入到Jupyter的安装目录,我的是在D:\Pyt ...
总结fiddle
fiddler重新发送请求模拟限速 http://caibaojian.com/fiddler.html fiddler模拟限速的原理我们可以通过fiddler来模拟限速,因为fiddler本 ...
Java_File类
File类以抽象的方式代表文件名和目录路径.该类主要用于文件和目录的创建.查找.删除等.先来看一下File的构造方法: // 通过将给定的路径名字符串转换为抽象路径名来创建新的 File实例 File ...
Make a plan
1. 思考 2. 学习英语 3. 练习书法执行周期:2015年1月15日到2016年1月16日. 要像每一次用餐一样对待每一天的计划. 早晨起来,第一件事情是洗漱,然后是思考: 中午时间,第一件事情 ...
OpenCV-Python-边缘检测
Canny边缘检测方法被誉为边缘检测的最优方法. import cv2 import numpy as np img = cv2.imread('handwriting.jpg', 0) edges ...

数据分析 大数据之路 五 pandas 报表

主要以二维表为主

数据分析 大数据之路 五 pandas 报表的更多相关文章

随机推荐

热门专题

数据分析大数据之路五 pandas 报表

数据分析大数据之路五 pandas 报表的更多相关文章