第三周的课程pandas 分析数据

http://pandas.pydata.org

import pandas as pd

常与numpy matplotlib 一块定义

d=pd.Series(range(20))

d.cumsum()

主要提供两个数据类型

Series DataFrame

基于上述数据类型的各类操作

很好的表示和封装

numpy         更关注数据的结构表达 数据之间构成的维度

pandas        基于numpy 实现的扩展库

建立其应用与索引之间的关系

Series 数据和索引  series类型由一组数据与索引构成

a=pd.Series([9,8,7,6])

会自动增加一个索引

沿用numpy中的类型

更强大的索引能力

b=pd.Series=([9,8,7,6],index=['a','b','c','d'])

b

自定义索引的写法 ↑

对于其每一个数据都会关联一个索引(自动生成或者自定义索引)

Series 可以由 python列表 标量值其它函数 python字典 numpy ndarray

这里是Series 的创建

1 标量创建

s=pd.Series(25,index=['a','b','c'])

这里的index=不可省略

2 字典创建

d=pf.Series({"a":9,"b":8,"c":7})

这样的话 key -> index

value ->value

e=pd.Series({'a':9,'b':8,'c':7},index=['c','b','a'])

这里的index制定了形状

e

c 7.0

a 9.0

b.8.0

d Nan

以上的字典构造Series 的两种方式

3 ndarray中创建

n=pd.Series(np.arrange(5))

m=pd.Series(np.arrange(5),index=np.arrange(9,4,-1))

Series 的基本操作

import pandas as pd

b=pd.Series([9,8,7,6],['a','b','c','d'])

b.index

b.values

获得index 和 values

Series = index + ndarray

b[1]

8

b['b']

8

两套索引可以并存,但是不能混用

可以用自定义索引的列表进行切片

可以通过自动索引进行切片

b[3] 第3个

b[:3]  0-3个

Series 类型切出来还是Series 类型

b[b>b.median()]  所有大于元素中位数的项

输出Series类型

是Series 就有index 和 values

对Series的运算都是返回Series

类似字典类型

可以通过自动索引进行切片,而且索引和值会被一同切片

保留字 in

'c' in b   判断c是不是b的索引的一部分(只判断自定义索引,不会判断自动索引)

True

方法 .get()

b.get('f',100) 得到 ‘f’对应的值,没有就返回100(默认)

Series 的对齐操作

a=pd.Series([1,2,3,],['c','d','e'])

b=pd.Series([9,8,7,6],['a','b','c','d'])

a+b

索引相同的元素相加,索引不同的项不管

有数据+没有值=没有值

这是一个对齐问题(更加精确,更加不容易出错)

对象和索引都可以有一个书名,存储在.name

b.name    对象的名字

b.index.name 索引的名字

Series类型的修改

随时修改并且即刻生效

b['b','c']=20  修改索引为'b','c'的元素

基本操作之间存在对齐问题 , 根据索引对齐

带标签数组的含义就是

DataFrame 类型

是由公用相同索引的一组列组成

index\column axis=1

index_0  data_a ...

index_1  data_b ...

    ...

axis=0

表格型的数据类型

常用二维数据

DataFrame的创建

二维nd.array对象

由一维ndarray ,列表,字典,元组,Series 构成的字典

Series 类型

其他的Dataframe创建

import pandas as pd

import numpy as np

d=pd.DataFrame(np.arrange(10).reshape(2,5))

d

  0 1 2 3 4

0    0 1 2 3 4

1    5 6 7 8 9

使用字典创建 DataFrame

dt={"one":pd.Series([1,2,3],index=['a','b','c']) ,

"two":pd.Series([9,8,7,6],index=['a','b','c','d'])

}

每一个字典键值对,对应一个column

d=pd.DataFrame(dt)

d

  one two

a    1   9

b    2   8

c    3   7

d   nan 6

有一点点像自动对齐

pd.DataFrame(dt,index=['b','c','d'],column=['two','three'])

这里也同样是指定形状

有一点像自动对齐的规则

  two three

b    8    nan

c    7    nan

d    6    nan

还可以通过列表类型的字典创建

dl={'one':[1,2,3,4],'two':[9,8,7,6]}

key:List 分别对应两个column ,columnvalues

d=pd.DataFrame(dl,index=['a','b','c','d'])    只指定index

用字典的话column顺序 不一定与字典中相同

d.columns

d.index

返回Series  (index)

d.values

返回ndarray

D['同比']获得其中某一列(column)  Series

d.ix[] 获得其中的某一行(row)         Series

d["同比"][“c2”]  先列(column)后行  奇怪。。(看上面的取值方法)

d.ix['c2'][同比]  这样就先行(row)后列了吧(column)

二维带标签的数组

Python数据分析与展示[第三周](pandas简介与数据创建)的更多相关文章

  1. Python数据分析与展示[第三周](pandas数据类型操作)

    数据类型操作 如何改变Series/ DataFrame 对象 增加或重排:重新索引 删除:drop 重新索引 .reindex() reindex() 能够改变或重排Series和DataFrame ...

  2. Python数据分析与展示[第三周](pandas数据特征分析单元8)

    数据理解 基本统计 分布/累计统计 数据特征 数据挖掘 数据排序 操作索引的排序 .sort_index() 在指定轴上排序,默认升序 参数 axis=0 column ascending=True ...

  3. python数据分析及展示(三)

    一.Pandas库入门 1. Pandas库的介绍 http://pandas.pydata.org Pandas是Python第三方库,提供高性能易用数据类型和分析工具 import pandas ...

  4. Python数据分析与展示第3周学习笔记(北京理工大学 嵩天等)

    入门学习马上结束辽. 1.Pandas库 import pandas as pd 两个数据类型:Series,DataFrame Series类型:数据+索引 自定义索引 b = pd.Series( ...

  5. Python数据分析与展示第2周学习笔记(北理工 嵩天)

    单元4:Matplotlib库入门 matplotlib.pyplot是绘制各类可视化图形的命令子库,相当于快捷方式 import matplotlib.pyplot as plt # -*- cod ...

  6. Python数据分析与挖掘所需的Pandas常用知识

    Python数据分析与挖掘所需的Pandas常用知识 前言Pandas基于两种数据类型:series与dataframe.一个series是一个一维的数据类型,其中每一个元素都有一个标签.series ...

  7. 【学习笔记】PYTHON数据分析与展示(北理工 嵩天)

    0 数据分析之前奏 课程主要内容:常用IDE:本课程主要使用:Anaconda Anaconda:一个集合,包括conda.某版本Python.一批第三方库等 -支持近800个第三方库 -适合科学计算 ...

  8. Python数据分析:手把手教你用Pandas生成可视化图表

    大家都知道,Matplotlib 是众多 Python 可视化包的鼻祖,也是Python最常用的标准可视化库,其功能非常强大,同时也非常复杂,想要搞明白并非易事.但自从Python进入3.0时代以后, ...

  9. Python 学习日记(第三周)

    知识回顾 在上一周的学习里,我学习了一些学习Python的基础知识下面先简短的回顾一些: 1Python的版本和和安装 Python的版本主要有2.x和3.x两个版本这两个版本在语法等方面有一定的区别 ...

随机推荐

  1. 2019-8-26-当-ASP.NET-Core-链接找不到时可能的原因

    title author date CreateTime categories 当 ASP.NET Core 链接找不到时可能的原因 lindexi 2019-08-26 18:52:28 +0800 ...

  2. nowcoder牛客wannafly挑战赛20

    A---染色 签到题,设最终颜色为x,一次操作就需要把一个不是x的点变为x,所以最终颜色为x时需要操作 总结点个数-颜色为x的节点个数,然后枚举所有颜色就行了 #include <iostrea ...

  3. Windows API 第12篇 MoveFile

    MoveFile可以移动文件,更名文件,移动目录(包括目录下的所有文件以及子目录).函数定义:BOOL MoveFile(  LPCTSTR lpExistingFileName, // file n ...

  4. 在Apline编译Mariadb 常见错误

    /root/mariadb-10.3.11/storage/tokudb/PerconaFT/portability/toku_assert.cc:52:22: fatal error: execin ...

  5. mysql备份时的快照原理

    实际上实验的结果表明,这里的 the first such read指的是:对同一个表或者不同表进行的第一次select语句建立了该事务中一致性读的snapshot. 其它update, delete ...

  6. Django项目:CMDB(服务器硬件资产自动采集系统)--03--03CMDB信息安全API接口交互认证

    #settings.py """ Django settings for AutoCmdb project. Generated by 'django-admin sta ...

  7. mysql高级教程(二)-----性能分析

    MySQL常见瓶颈 1.cpu SQL中对大量数据进行比较.关联.排序.分组 2.IO a.实例内存满足不了缓存数据或排序等需要,导致产生大量物理 IO. b.查询执行效率低,扫描过多数据行. 3.锁 ...

  8. 禁用 ipv6

    # 禁用整个系统所有接口的IPv6 net.ipv6.conf.all.disable_ipv6 = # 禁用某一个指定接口的IPv6(例如:eth0, lo) net.ipv6.conf.lo.di ...

  9. 【DM642】ICELL Interface—Cells as Algorithm Containers

    ICELL Interface—Cells as Algorithm Containers: DSP的算法标准(XDAIS)为算法提供了一个标准的接口.这样我们就可以使用第三方的算法.For tech ...

  10. mybatis学习:mybatis的注解开发和编写dao实现类的方式入门

    一.使用注解则不需要创建映射配置文件:即xxxDao.xml javaBean为什么要实现Serializable接口? Java的"对象序列化"能让你将一个实现了Serializ ...