10 Minutes to pandas

摘要

　一、创建对象　　　　

　　二、查看数据

　　三、选择和设置

　　四、缺失值处理

　　五、相关操作

　　六、聚合

　　七、重排(Reshaping)
　　八、时间序列
　　九、Categorical类型

　十、画图
十一、导入和保存数据

内容

# coding=utf-8
import pandas as pd
import numpy as np
### 一、创建对象
## 1.可以传递一个list对象创建一个Series,Pandas会默认创建整型索引
s = pd.Series([1, 3, 5, np.nan, 6, 8])
# print s

## 2.通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame
dates = pd.date_range('20130101', periods=6)
# print dates
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
# print df
## 3.通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame
df2 = pd.DataFrame({"A": 1, "B": pd.Timestamp('20130102'), "C": pd.Series(1, index=list(range(4)), dtype="float32"),
                      "D": np.array([3] * 4, dtype="int32"), "E": pd.Categorical(["test", "train", "test", "train"]),
                      "F": "foo"})
# print df2

### 二、查看数据
## 1.查看frame中头部和尾部的行,默认5行
# print df.head()
# print df.tail(3)

## 2.显示索引，列和底层的numpy数据
# print df.index
# print df.columns
# print df.values

## 3.describe()函数对于数据的款素统计汇总,python中方法不能省略圆括号
# print df.describe()

## 4.对数据的转置
# print df.T

## 5.按轴（列）进行排序
# print df.sort_index(axis=1,ascending=False)

## 6.按值进行排序,建议使用sort_values(by=)
# print df.sort(columns="B")
# print df.sort_values(by="B")

### 三、选择和设置
## 获取1.选择一个单独的列,这将会返回一个Series,等同于df.A
# print df["A"]

## 获取2.通过[]进行选择，这将会对行进行切片
# print df[0:3][1:2]
# print df[0:3]

##上面的方法是通过下标[]进行访问，下面可以.loc[]来对指定便签进行选择
##通过标签选择：1.使用便签来获取一个交叉的区域
# print df.loc[ dates[0] ]

##通过标签选择：2.通过标签来在多个轴上进行选择
# print df.loc[ :,["A","B"] ]

##通过标签选择：3.标签切片
# print df.loc[ "20130102":"20130104",["A","B"] ]

##通过标签选择：4.对于返回的对象进行维度缩减
# print df.loc["20130102",["A","B"]]

##通过标签选择：5.获取一个标量
# print df.loc[ dates[0],"A" ]

##通过标签选择：6.快速访问一个标量(at方法)
# print df.at[ dates[0],"A" ]

##通过位置选择：1.通过传递数值进行位置选择（选择的是行）
# print df.iloc[3]

##通过位置选择：2.通过数值进切片
# print df.iloc[3:5,0:2]

##通过位置选择：3.通过指定一个位置的列表
# print df.iloc[ [1,2,3],[0,2] ]

##通过位置选择：4.对行进行切片
# print df.iloc[1:3,:]

##通过位置选择：5.对列进行切片
# print df.iloc[:,1:3]

##通过位置选择:6.获取特定的值
# print df.iloc[1,1]
# print df.iat[1,1]

##可以使用逻辑表达式来选择指定的数据框
##布尔索引：1.使用一个单独列的值来选择数据
# print df[df.A > 0]

##布尔索引：2.使用where操作来选择数据
# print df[ df > 0]

##布尔索引：3.使用isin()方法来过滤
# print df2[df2["E"].isin( ["test"] )]

##设置：通过一个numpy数组设置一组新值
# df.loc[ :,"E" ] = np.array( [5]*len(df) )
# print df

## reindex对索引进行改变/新增/删除(未赋值就是pd.nan)
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])
# print df1

### 四、缺失值处理（pandas使用np.nan代替缺失值，默认不会计算）
## 1.去掉包含缺失值的行
# print df1.dropna(how="any")

## 2.对缺失值进行填充
# print df1.fillna(value=5)

## 3.判断缺失值
# print  pd.isnull()

## 五、相关操作
##apply(对数据应用函数）
# print df.apply(np.cumsum)##累积和
# print df.apply(lambda x:x.max - x.min) ##x代表当前列的一个标量

##值计数器
# print s.value_counts()

##六、聚合（aggregate）
## 1.contat(拼接,默认是全外联)
# piece = [ df[:2],df[2:4],df[4:] ]
# print pd.concat(piece)  ##默认axis=0是上下连接
# piece = [ df.loc[ :,["A","B"] ],df.loc[ :,["C","D"] ] ]
# print pd.concat(piece,axis=1) ##1是左右连接

## 2.联表操作（join,merge）
# left = pd.DataFrame( {
#     "key":["foo","foo1"],"lval":[1,2]
# } )
# right = pd.DataFrame( {
#     "key":["foo","foo2"],"rval":[1,2]
# } )
# print pd.merge(left,right,how="inner",left_on=left.key,right_on=right.key) ##内联
# print pd.merge(left,right,how="left",left_on=left.key,right_on=right.key)  ##左联
# print pd.merge(left,right,how="right",left_on=left.key,right_on=right.key) ##右联
# print pd.merge(left,right,how="outer",left_on=left.key,right_on=right.key)  ##全外联
# print left.set_index("key").join([right.set_index("key")], how="outer")  ##join根据索引连接

## 3.append(追加)
# print df.append(other=[df,df]) ##只能上下联接

## 4.分组
# print df.groupby("A").sum()
# print df.groupbyoupby( ["A","B"] ).sum()  ##层次索引
# print df.groupby(['A', 'B'])['C'].mean()
# print df.groupby(df["A"])

### 七、Reshaping
## 1.Stack
# tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
#                      'foo', 'foo', 'qux', 'qux'],
#                     ['one', 'two', 'one', 'two',
#                     'one', 'two', 'one', 'two']]))
# index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
# df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
# df2 = df[:4]
# print df2
#The stack function “compresses” a level in the DataFrame’s columns to produce either:
# A Series, in the case of a simple column Index
# A DataFrame, in the case of a MultiIndex in the columns
# stacked = df2.stack()
# print stacked
# print stacked.unstack()
# print stacked.unstack(1)
# print stacked.unstack(0)

## 2.数据透视表
# print pd.pivot_table(df,values="D",index=["A","B"],columns="C")

### 八、时间序列
# rng = pd.date_range("1/1/2012", periods=100, freq="S")
# ts = pd.Series(np.random.randn(0, 500, len(rng)), index=rng)
# print ts.resample("5Min",how="sum")

### 九、Categorical类型
详见此处
### 十、画图
详见此处

### 十一、导入和保存数据
df.to_csv("data.csv")
csv = df.read_csv("data.csv")

官网文档此处

10 Minutes to pandas的更多相关文章

《10 minutes to pandas》（转）
原文出处:http://pandas.pydata.org/pandas-docs/stable/10min.html 10 Minutes to pandas This is a short int ...
10 Minutes to pandas中文版
本文是对pandas官方网站上<10 Minutes to pandas>的一个简单的翻译,原文在这里.这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook .习惯 ...
Cookbook:pandas的学习之路——10 Minutes to pandas
按照pandas官网上10 Minutes to pandas的快速练习: 一 .对象创建: 导入练习所需要的工具包: 通过列表中的值创建序列Series,pandas在创建序列的同时会默认为列表中值 ...
10分钟学习pandas
10 Minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can se ...
10分钟了解 pandas - pandas官方文档译文 [原创]
10 Minutes to pandas 英文原文:https://pandas.pydata.org/pandas-docs/stable/10min.html 版本:pandas 0.23.4 采 ...
python 10分钟入门pandas
本文是对pandas官方网站上<10 Minutes to pandas>的一个简单的翻译,原文在这里.这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook .习惯 ...
The replication agent has not logged a progress message in 10 minutes.
打开Replication Monitor,在Subscription Watch List Tab中,发现有大量的status= “Performance critical” 的黄色Warning, ...
十分钟入门less(翻译自：Learn lESS in 10 Minutes(or less))
十分钟入门less(翻译自:Learn lESS in 10 Minutes(or less)) 注:本文为翻译文章,因翻译水平有限,难免有缺漏不足之处,可查看原文. 我们知道写css代码是非常枯燥的 ...
jenkins git can't work ERROR: Timeout after 10 minutes ERROR: Error fetching remote repo 'origin'
Started by user Allen Running as Allen Building remotely on MISTestSrv2 (MIS) in workspace C:\jenkin ...

随机推荐

Fis3的前端工程化之路[三大特性篇之内容嵌入]
Fis3版本:v3.4.22 Fis3的三大特性资源定位:获取任何开发中所使用资源的线上路径内容嵌入:把一个文件的内容(文本)或者base64编码(图片)嵌入到另一个文件中依赖声明:在一个文本文 ...
干货来袭-整套完整安全的API接口解决方案
在各种手机APP泛滥的现在,背后都有同样泛滥的API接口在支撑,其中鱼龙混杂,直接裸奔的WEB API大量存在,安全性令人堪优在以前WEB API概念没有很普及的时候,都采用自已定义的接口和结构,对 ...
Eclipse中启动tomcat报错java.lang.OutOfMemoryError: PermGen space的解决方法
有的项目引用了太多的jar包,或者反射生成了太多的类,异或有太多的常量池,就有可能会报java.lang.OutOfMemoryError: PermGen space的错误, 我们知道可以通过jvm ...
OpenGL超级宝典笔记----框架搭建
自从工作后,总是或多或少的会接触到客户端3d图形渲染,正好自己对于3d图形的渲染也很感兴趣,所以最近打算从学习OpenGL的图形API出发,进而了解3d图形的渲染技术.到网上查了一些资料,OpenGL ...
解读发布：.NET Core RC2 and .NET Core SDK Preview 1
先看一下 .NET Core(包含 ASP.NET Core)的路线图: Beta6: 2015年7月27日 Beta7: 2015年9月2日 Beta8: 2015年10月15日 RC1: 2015 ...
zookeeper源码分析之五服务端(集群leader)处理请求流程
leader的实现类为LeaderZooKeeperServer,它间接继承自标准ZookeeperServer.它规定了请求到达leader时需要经历的路径: PrepRequestProcesso ...
C#各种同步方法 lock, Monitor,Mutex, Semaphore, Interlocked, ReaderWriterLock,AutoResetEvent, ManualResetEvent
看下组织结构: System.Object System.MarshalByRefObject System.Threading.WaitHandle System.Threading.Mutex S ...
OpenDigg前端开源项目周报1219
由OpenDigg 出品的前端开源项目周报第二期来啦.我们的前端开源周报集合了OpenDigg一周来新收录的优质的前端开发方面的开源项目,方便前端开发人员便捷的找到自己需要的项目工具等.react-f ...
Selenium-java-获取当前时间
1 获取当前时间 // 获取当前时分秒 Calendar now = Calendar.getInstance(); int is = now.get(Calendar.HOUR_OF_DAY); i ...
搞了我一下午竟然是web.config少写了一个点
Safari手机版居然有个这么愚蠢的bug,浪费了我整个下午,使尽浑身解数,国内国外网站搜索解决方案,每一行代码读了又想想了又读如此不知道多少遍,想破脑袋也想不通到底哪里出了问题,结果竟然是web.c ...

10 Minutes to pandas

摘要

一、创建对象

二、查看数据

三、选择和设置

四、缺失值处理

五、相关操作

六、聚合

七、重排(Reshaping) 八、时间序列 九、Categorical类型

十、画图 十一、导入和保存数据

内容

10 Minutes to pandas的更多相关文章

随机推荐

热门专题

　一、创建对象　　　　

　　二、查看数据

　　三、选择和设置

　　四、缺失值处理

　　五、相关操作

　　六、聚合

　　七、重排(Reshaping)
　　八、时间序列
　　九、Categorical类型

　十、画图
十一、导入和保存数据