10 Minutes to pandas

摘要

　一、创建对象　　　　

　　二、查看数据

　　三、选择和设置

　　四、缺失值处理

　　五、相关操作

　　六、聚合

　　七、重排(Reshaping)
　　八、时间序列
　　九、Categorical类型

　十、画图
十一、导入和保存数据

内容

# coding=utf-8
import pandas as pd
import numpy as np
### 一、创建对象
## 1.可以传递一个list对象创建一个Series,Pandas会默认创建整型索引
s = pd.Series([1, 3, 5, np.nan, 6, 8])
# print s

## 2.通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame
dates = pd.date_range('20130101', periods=6)
# print dates
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
# print df
## 3.通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame
df2 = pd.DataFrame({"A": 1, "B": pd.Timestamp('20130102'), "C": pd.Series(1, index=list(range(4)), dtype="float32"),
                      "D": np.array([3] * 4, dtype="int32"), "E": pd.Categorical(["test", "train", "test", "train"]),
                      "F": "foo"})
# print df2

### 二、查看数据
## 1.查看frame中头部和尾部的行,默认5行
# print df.head()
# print df.tail(3)

## 2.显示索引，列和底层的numpy数据
# print df.index
# print df.columns
# print df.values

## 3.describe()函数对于数据的款素统计汇总,python中方法不能省略圆括号
# print df.describe()

## 4.对数据的转置
# print df.T

## 5.按轴（列）进行排序
# print df.sort_index(axis=1,ascending=False)

## 6.按值进行排序,建议使用sort_values(by=)
# print df.sort(columns="B")
# print df.sort_values(by="B")

### 三、选择和设置
## 获取1.选择一个单独的列,这将会返回一个Series,等同于df.A
# print df["A"]

## 获取2.通过[]进行选择，这将会对行进行切片
# print df[0:3][1:2]
# print df[0:3]

##上面的方法是通过下标[]进行访问，下面可以.loc[]来对指定便签进行选择
##通过标签选择：1.使用便签来获取一个交叉的区域
# print df.loc[ dates[0] ]

##通过标签选择：2.通过标签来在多个轴上进行选择
# print df.loc[ :,["A","B"] ]

##通过标签选择：3.标签切片
# print df.loc[ "20130102":"20130104",["A","B"] ]

##通过标签选择：4.对于返回的对象进行维度缩减
# print df.loc["20130102",["A","B"]]

##通过标签选择：5.获取一个标量
# print df.loc[ dates[0],"A" ]

##通过标签选择：6.快速访问一个标量(at方法)
# print df.at[ dates[0],"A" ]

##通过位置选择：1.通过传递数值进行位置选择（选择的是行）
# print df.iloc[3]

##通过位置选择：2.通过数值进切片
# print df.iloc[3:5,0:2]

##通过位置选择：3.通过指定一个位置的列表
# print df.iloc[ [1,2,3],[0,2] ]

##通过位置选择：4.对行进行切片
# print df.iloc[1:3,:]

##通过位置选择：5.对列进行切片
# print df.iloc[:,1:3]

##通过位置选择:6.获取特定的值
# print df.iloc[1,1]
# print df.iat[1,1]

##可以使用逻辑表达式来选择指定的数据框
##布尔索引：1.使用一个单独列的值来选择数据
# print df[df.A > 0]

##布尔索引：2.使用where操作来选择数据
# print df[ df > 0]

##布尔索引：3.使用isin()方法来过滤
# print df2[df2["E"].isin( ["test"] )]

##设置：通过一个numpy数组设置一组新值
# df.loc[ :,"E" ] = np.array( [5]*len(df) )
# print df

## reindex对索引进行改变/新增/删除(未赋值就是pd.nan)
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])
# print df1

### 四、缺失值处理（pandas使用np.nan代替缺失值，默认不会计算）
## 1.去掉包含缺失值的行
# print df1.dropna(how="any")

## 2.对缺失值进行填充
# print df1.fillna(value=5)

## 3.判断缺失值
# print  pd.isnull()

## 五、相关操作
##apply(对数据应用函数）
# print df.apply(np.cumsum)##累积和
# print df.apply(lambda x:x.max - x.min) ##x代表当前列的一个标量

##值计数器
# print s.value_counts()

##六、聚合（aggregate）
## 1.contat(拼接,默认是全外联)
# piece = [ df[:2],df[2:4],df[4:] ]
# print pd.concat(piece)  ##默认axis=0是上下连接
# piece = [ df.loc[ :,["A","B"] ],df.loc[ :,["C","D"] ] ]
# print pd.concat(piece,axis=1) ##1是左右连接

## 2.联表操作（join,merge）
# left = pd.DataFrame( {
#     "key":["foo","foo1"],"lval":[1,2]
# } )
# right = pd.DataFrame( {
#     "key":["foo","foo2"],"rval":[1,2]
# } )
# print pd.merge(left,right,how="inner",left_on=left.key,right_on=right.key) ##内联
# print pd.merge(left,right,how="left",left_on=left.key,right_on=right.key)  ##左联
# print pd.merge(left,right,how="right",left_on=left.key,right_on=right.key) ##右联
# print pd.merge(left,right,how="outer",left_on=left.key,right_on=right.key)  ##全外联
# print left.set_index("key").join([right.set_index("key")], how="outer")  ##join根据索引连接

## 3.append(追加)
# print df.append(other=[df,df]) ##只能上下联接

## 4.分组
# print df.groupby("A").sum()
# print df.groupbyoupby( ["A","B"] ).sum()  ##层次索引
# print df.groupby(['A', 'B'])['C'].mean()
# print df.groupby(df["A"])

### 七、Reshaping
## 1.Stack
# tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
#                      'foo', 'foo', 'qux', 'qux'],
#                     ['one', 'two', 'one', 'two',
#                     'one', 'two', 'one', 'two']]))
# index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
# df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
# df2 = df[:4]
# print df2
#The stack function “compresses” a level in the DataFrame’s columns to produce either:
# A Series, in the case of a simple column Index
# A DataFrame, in the case of a MultiIndex in the columns
# stacked = df2.stack()
# print stacked
# print stacked.unstack()
# print stacked.unstack(1)
# print stacked.unstack(0)

## 2.数据透视表
# print pd.pivot_table(df,values="D",index=["A","B"],columns="C")

### 八、时间序列
# rng = pd.date_range("1/1/2012", periods=100, freq="S")
# ts = pd.Series(np.random.randn(0, 500, len(rng)), index=rng)
# print ts.resample("5Min",how="sum")

### 九、Categorical类型
详见此处
### 十、画图
详见此处

### 十一、导入和保存数据
df.to_csv("data.csv")
csv = df.read_csv("data.csv")

官网文档此处

10 Minutes to pandas的更多相关文章

《10 minutes to pandas》（转）
原文出处:http://pandas.pydata.org/pandas-docs/stable/10min.html 10 Minutes to pandas This is a short int ...
10 Minutes to pandas中文版
本文是对pandas官方网站上<10 Minutes to pandas>的一个简单的翻译,原文在这里.这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook .习惯 ...
Cookbook:pandas的学习之路——10 Minutes to pandas
按照pandas官网上10 Minutes to pandas的快速练习: 一 .对象创建: 导入练习所需要的工具包: 通过列表中的值创建序列Series,pandas在创建序列的同时会默认为列表中值 ...
10分钟学习pandas
10 Minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can se ...
10分钟了解 pandas - pandas官方文档译文 [原创]
10 Minutes to pandas 英文原文:https://pandas.pydata.org/pandas-docs/stable/10min.html 版本:pandas 0.23.4 采 ...
python 10分钟入门pandas
本文是对pandas官方网站上<10 Minutes to pandas>的一个简单的翻译,原文在这里.这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook .习惯 ...
The replication agent has not logged a progress message in 10 minutes.
打开Replication Monitor,在Subscription Watch List Tab中,发现有大量的status= “Performance critical” 的黄色Warning, ...
十分钟入门less(翻译自：Learn lESS in 10 Minutes(or less))
十分钟入门less(翻译自:Learn lESS in 10 Minutes(or less)) 注:本文为翻译文章,因翻译水平有限,难免有缺漏不足之处,可查看原文. 我们知道写css代码是非常枯燥的 ...
jenkins git can't work ERROR: Timeout after 10 minutes ERROR: Error fetching remote repo 'origin'
Started by user Allen Running as Allen Building remotely on MISTestSrv2 (MIS) in workspace C:\jenkin ...

随机推荐

C#给PDF文档添加文本和图片页眉
页眉常用于显示文档的附加信息,我们可以在页眉中插入文本或者图形,例如,页码.日期.公司徽标.文档标题.文件名或作者名等等.那么我们如何以编程的方式添加页眉呢?今天,这篇文章向大家分享如何使用了免费组件 ...
在传统.NET Framework 上运行ASP.NET Core项目
新的项目我们想用ASP.NET Core来开发,但是苦于我们历史的遗产很多,比如<使用 JavaScriptService 在.NET Core 里实现DES加密算法>,我们要估计等到.N ...
《Django By Example》第二章中文翻译（个人学习，渣翻）
书籍出处:https://www.packtpub.com/web-development/django-example 原作者:Antonio Melé (译者注:翻译完第一章后,发现翻译第二章的速 ...
MySQL碎碎念
1. 如何修改Mysql的用户密码 mysql> update mysql.user set password=password('hello') where user='root'; mysq ...
用javascript 写个函数返回一个页面里共使用了多少种HTML 标签
今天我无意间看到一个面试题: 如何用javascript 写个函数返回一个页面里共使用了多少种HTML 标签? 不知你看到是否蒙B了,如果是我面试,肯定脑子嗡嗡的响.... 网上搜了搜也没有找到答 ...
编写高质量代码:改善Java程序的151个建议(第8章:多线程和并发___建议126~128)
建议126:适时选择不同的线程池来实现 Java的线程池实现从根本上来说只有两个:ThreadPoolExecutor类和ScheduledThreadPoolExecutor类,这两个类还是父子关系 ...
pt-heartbeat
pt-heartbeat是用来监测主从延迟的情况的,众所周知,传统的通过show slave status\G命令中的Seconds_Behind_Master值来判断主从延迟并不靠谱. pt-hea ...
jQuery中取消后续执行内容
<html xmlns="http://www.w3.org/1999/xhtml"><head> <title></title&g ...
svnserver hook python
在使用中可能会遇到的错误排除 :1.Error: svn: 解析"D:\www\test"出错,或svn: E020024: Error resolving case of 'D: ...
Java
2016-12-17 21:10:28 吉祥物:Duke(公爵) Logo:咖啡(爪哇岛盛产咖啡) An overview of the software development proce ...

10 Minutes to pandas

摘要

一、创建对象

二、查看数据

三、选择和设置

四、缺失值处理

五、相关操作

六、聚合

七、重排(Reshaping) 八、时间序列 九、Categorical类型

十、画图 十一、导入和保存数据

内容

10 Minutes to pandas的更多相关文章

随机推荐

热门专题

　一、创建对象　　　　

　　二、查看数据

　　三、选择和设置

　　四、缺失值处理

　　五、相关操作

　　六、聚合

　　七、重排(Reshaping)
　　八、时间序列
　　九、Categorical类型

　十、画图
十一、导入和保存数据