【PY从0到1】一文掌握Pandas量化基础

# 2【PY从0到1】 一文掌握Pandas量化基础

# Numpy和pandas是什么关系呢？

# 在我看来，np偏向于数据细节处理，pd更偏向于表格整体的处理。

# 要记住的pd内部的数据结构采用的是array，所以np是pd地基。

# 下面就让我们来看看pandas的基本使用方法。

# 导入库：

import numpy as np

import pandas as pd

import warnings; warnings.simplefilter('ignore') 

# 1> Series的构建与使用

# Series是最简单的pd里的数据结构。

# 用pd.Series建立。

# 这与np.array有异曲同工之处。

# 要注意的是pd支持列表，也支持传入字典。

df = pd.Series([1,2,3,4,5,6])

df2 = pd.Series({'a':1,'b':2,'c':3})

print(type(df.values))

# 我们可以看到df的类型是ndarray：<class 'numpy.ndarray'>

# 两个查看DataFrame的方法:

df.head() # 查看前五个

df.tail() # 查看后五个

# pd的索引和表格名称

df.name = 'Series1'

df.index.name = '序号'

print(df.head())

# 序号

# 0    1

# 1    2

# 2    3

# 3    4

# 4    5

# Name: Series1, dtype: int64

# 我们在生成Series时也可以指定索引名称。

df = pd.Series(range(3,9),

               index = ['a', 'b', 'c', 'd', 'e','f'])

# 2> Series切片

# Series里的切片全部根据索引进行的。

df[0]

df['a']

df[1:3]

df[['a','d']]

print(df['c':'d']) # 注意用索引切片是有头有尾的。

# c    5

# d    6

# dtype: int64

# 2> DataFrame的构建

# DataFrame可以看成是无数个Series组成的表格。

# ① 用np.DataFrame()建立

# 这里同样可以给pd传入列表或字典。

np.random.seed(10)

df = np.random.randint(-5,6,size=(5,6))

df = pd.DataFrame(df,

                  columns = ['a', 'b', 'c', 'd','e','f'],

                  index = [1,2,3,4,5])

print(df.head(2))

#    a  b  c  d  e  f

# 1 -1  1  5  4 -5 -1

# 2  5  1 -1  4  3 -5

# 3> DaraFram的切片

# ① 通过标签获取

df['a',axis=1] # 获取a列。*也可以写成df.a

df[['a']] # 返回值可以包括列标签。

# df.ix[0] # 新版pandas已经删除。

df.loc[1] # 获取行标签为1的行。

df.loc[[1]] # 返回值可以包括行标签。

df.loc[[1,3,5]] # 获取第1,3,5行。

df.loc[1:5] # 获取1到5行，有头有尾。

df.loc[[1,3],['b']] # 选取一三行和b列

# **做切片时，用索引切就是有头无尾，用标签切就是有头有尾。

# ② 按索引位置切片

df.iloc[1:3] # 按索引从0到3（不包括3）

df.iloc[0:2,0] #三行索引0到2，列索引0

# 4> DataFrame重要属性与修改

print(df.index) # 获取索引名

# 输出如下：Int64Index([1, 2, 3, 4, 5], dtype='int64')

df.columns # 获取列名

df.sum() # 按列求和，axis=1为按行求和。

df.mean() # 求平均数。

df.cumsum() # 按列累计求和。

df.describe() # 求常用统计量。

df.rename(columns={'a':'A',

                   'b':'B',

                   'c':'C',

                   'd':'D',

                   'e':'E',

                   'f':'F'},index={1:'one'},

          inplace=True) # 对列和行标签修改，并替换原df

print(df)

#      A  B  C  D  E  F

# one -5  1 -4 -2  4  4

# 2    1 -1  0  5  5  3

# 3    5  5 -5 -3  4 -3

# 4    2  3 -4 -2  5 -4

# 5    3  0  0  3 -1  1

df[:] = df[:].astype('f') # 数据改为浮点数。

df['G'] = pd.DataFrame(np.arange(5,dtype='f'),

                       index=['one',2,5,4,3]) # 增加一列

del(df['G']) # 删除一列

np.random.seed(100)

df1 = pd.DataFrame(np.random.random((6,3)),

                   columns = ['a', 'b','c'])

df2 = pd.DataFrame(np.random.random((3,3)),

                   columns = ['a', 'b', 'c'])

df3 = df1 + df2

print(df3)

#           a         b         c

# 0  1.359630  0.552443  0.856222

# 1  1.784806  0.822368  0.457681

# 2  0.846160  1.198685  0.142395

# 3       NaN       NaN       NaN

# 4       NaN       NaN       NaN

# 5       NaN       NaN       NaN

# 出错的地方pd会自动补齐NaN

df3.fillna(0, inplace=True) # 将NaN的值替换为0。

# 5> DataFrame条件选值

print(df)

#        A    B    C    D    E    F

# one  4.0 -1.0 -5.0 -4.0  4.0 -5.0

# 2   -4.0  5.0  3.0  4.0 -5.0  5.0

# 3    3.0  1.0 -1.0 -2.0 -5.0 -1.0

# 4    1.0  3.0  5.0 -4.0  3.0 -1.0

# 5   -4.0 -2.0  1.0  0.0 -2.0  4.0

print(df[df.A > 0]) # 选出A列大于零的所有行。相同的写法：df[df[A]>0]

#        A    B    C    D    E    F

# one  4.0 -1.0 -5.0 -4.0  4.0 -5.0

# 3    3.0  1.0 -1.0 -2.0 -5.0 -1.0

# 4    1.0  3.0  5.0 -4.0  3.0 -1.0

# 多条件选行：

df[(df.A > 0)|(df.B > 0)|(df.C > 0)]

df[(df.A > 0) * 1  + (df.B > 0) * 1  == 2] # A和B都大于0的行

df[(df.A > 0) * 1  + (df.B > 0) * 1  >= 1] # A和B只要有一个大于0的行

# 6> DataFrame的Apply函数

np.random.seed(12) # 随机种子

a = np.random.randn(9, 6) # 生成九行六列的Ndarray

a.round(5) # 保留五位小数

df = pd.DataFrame(a) # 建立DataFrame

dates = pd.date_range('2017-1-1', periods=9, freq='5D') # 生成时间，periods为数据量，freq为数据间隔。

column = ['a','b','c','d','e','f'] #行标签

df.index = dates # 指定索引

df.columns = column # 指定行标签

def square_fun(x):

    a = x**2

    return a

df.apply(square_fun,axis=0) # 将df数据全部用square_fun函数计算。或 df.apply(lambda x: x ** 0.5)

# axis=0为按列，axis=1为按行。

# 7> DataFrame的排序

df.sort_index(ascending=False) # 按索引升序排列，将ascending改为True是降序。

df.sort_index(axis=1,ascending=False) # 按行标签升序排列。

df.sort_values(by= 'b', ascending= False) # 按b列升序排列。

# 8> DataFrame 处理缺失值

df_nan = np.sqrt(df).head()

print(df_nan) # 对df元素开方。

#                    a         b         c         d         e         f

# 2017-01-01  0.687740       NaN  0.492381       NaN  0.867838       NaN

# 2017-01-06  0.071604       NaN       NaN  1.694644       NaN  0.687355

# 2017-01-11  1.046879       NaN  1.158601       NaN  1.006238       NaN

# 2017-01-16       NaN  1.099907  0.708429  0.372621  0.800476  0.726177

# 2017-01-21       NaN       NaN       NaN       NaN       NaN       NaN

# df_nan.isnull() # 判断df_nan中的空值。

# df_nan.dropna() # 删除df_nan中的空值（行中有空值就会删除这一行）。axis=1（列中有空值就会删除这一列）

df_nan.fillna(0,inplace=True) # 空值用0填充，并替换df_nan.

print(df_nan.round(3))

#                 a    b      c      d      e      f

# 2017-01-01  0.688  0.0  0.492  0.000  0.868  0.000

# 2017-01-06  0.072  0.0  0.000  1.695  0.000  0.687

# 2017-01-11  1.047  0.0  1.159  0.000  1.006  0.000

# 2017-01-16  0.000  1.1  0.708  0.373  0.800  0.726

# 2017-01-21  0.000  0.0  0.000  0.000  0.000  0.000

# 2【PY从0到1】一文掌握Pandas量化基础
# Numpy和pandas是什么关系呢？# 在我看来，np偏向于数据细节处理，pd更偏向于表格整体的处理。# 要记住的pd内部的数据结构采用的是array，所以np是pd地基。# 下面就让我们来看看pandas的基本使用方法。
# 导入库：import numpy as npimport pandas as pdimport warnings; warnings.simplefilter('ignore')

# 1> Series的构建与使用# Series是最简单的pd里的数据结构。
# 用pd.Series建立。# 这与np.array有异曲同工之处。# 要注意的是pd支持列表，也支持传入字典。df = pd.Series([1,2,3,4,5,6])df2 = pd.Series({'a':1,'b':2,'c':3})print(type(df.values)) # 我们可以看到df的类型是ndarray：<class 'numpy.ndarray'>
# 两个查看DataFrame的方法:df.head() # 查看前五个df.tail() # 查看后五个
# pd的索引和表格名称df.name = 'Series1'df.index.name = '序号'print(df.head())# 序号# 0 1# 1 2# 2 3# 3 4# 4 5# Name: Series1, dtype: int64
# 我们在生成Series时也可以指定索引名称。df = pd.Series(range(3,9), index = ['a', 'b', 'c', 'd', 'e','f'])
# 2> Series切片# Series里的切片全部根据索引进行的。df[0]df['a']df[1:3]df[['a','d']]print(df['c':'d']) # 注意用索引切片是有头有尾的。# c 5# d 6# dtype: int64

# 2> DataFrame的构建# DataFrame可以看成是无数个Series组成的表格。
# ① 用np.DataFrame()建立# 这里同样可以给pd传入列表或字典。np.random.seed(10)df = np.random.randint(-5,6,size=(5,6))df = pd.DataFrame(df, columns = ['a', 'b', 'c', 'd','e','f'], index = [1,2,3,4,5])print(df.head(2))# a b c d e f# 1 -1 1 5 4 -5 -1# 2 5 1 -1 4 3 -5

# 3> DaraFram的切片
# ① 通过标签获取df['a',axis=1] # 获取a列。*也可以写成df.adf[['a']] # 返回值可以包括列标签。# df.ix[0] # 新版pandas已经删除。df.loc[1] # 获取行标签为1的行。df.loc[[1]] # 返回值可以包括行标签。df.loc[[1,3,5]] # 获取第1,3,5行。df.loc[1:5] # 获取1到5行，有头有尾。df.loc[[1,3],['b']] # 选取一三行和b列# **做切片时，用索引切就是有头无尾，用标签切就是有头有尾。
# ② 按索引位置切片df.iloc[1:3] # 按索引从0到3（不包括3）df.iloc[0:2,0] #三行索引0到2，列索引0

# 4> DataFrame重要属性与修改print(df.index) # 获取索引名# 输出如下：Int64Index([1, 2, 3, 4, 5], dtype='int64')df.columns # 获取列名df.sum() # 按列求和，axis=1为按行求和。df.mean() # 求平均数。 df.cumsum() # 按列累计求和。df.describe() # 求常用统计量。df.rename(columns={'a':'A', 'b':'B', 'c':'C', 'd':'D', 'e':'E', 'f':'F'},index={1:'one'}, inplace=True) # 对列和行标签修改，并替换原dfprint(df)# A B C D E F# one -5 1 -4 -2 4 4# 2 1 -1 0 5 5 3# 3 5 5 -5 -3 4 -3# 4 2 3 -4 -2 5 -4# 5 3 0 0 3 -1 1
df[:] = df[:].astype('f') # 数据改为浮点数。
df['G'] = pd.DataFrame(np.arange(5,dtype='f'), index=['one',2,5,4,3]) # 增加一列del(df['G']) # 删除一列
np.random.seed(100)df1 = pd.DataFrame(np.random.random((6,3)), columns = ['a', 'b','c'])df2 = pd.DataFrame(np.random.random((3,3)), columns = ['a', 'b', 'c'])df3 = df1 + df2 print(df3)# a b c# 0 1.359630 0.552443 0.856222# 1 1.784806 0.822368 0.457681# 2 0.846160 1.198685 0.142395# 3 NaN NaN NaN# 4 NaN NaN NaN# 5 NaN NaN NaN# 出错的地方pd会自动补齐NaNdf3.fillna(0, inplace=True) # 将NaN的值替换为0。
# 5> DataFrame条件选值print(df)# A B C D E F# one 4.0 -1.0 -5.0 -4.0 4.0 -5.0# 2 -4.0 5.0 3.0 4.0 -5.0 5.0# 3 3.0 1.0 -1.0 -2.0 -5.0 -1.0# 4 1.0 3.0 5.0 -4.0 3.0 -1.0# 5 -4.0 -2.0 1.0 0.0 -2.0 4.0
print(df[df.A > 0]) # 选出A列大于零的所有行。相同的写法：df[df[A]>0]# A B C D E F# one 4.0 -1.0 -5.0 -4.0 4.0 -5.0# 3 3.0 1.0 -1.0 -2.0 -5.0 -1.0# 4 1.0 3.0 5.0 -4.0 3.0 -1.0
# 多条件选行：df[(df.A > 0)|(df.B > 0)|(df.C > 0)]df[(df.A > 0) * 1 + (df.B > 0) * 1 == 2] # A和B都大于0的行df[(df.A > 0) * 1 + (df.B > 0) * 1 >= 1] # A和B只要有一个大于0的行
# 6> DataFrame的Apply函数np.random.seed(12) # 随机种子a = np.random.randn(9, 6) # 生成九行六列的Ndarraya.round(5) # 保留五位小数df = pd.DataFrame(a) # 建立DataFramedates = pd.date_range('2017-1-1', periods=9, freq='5D') # 生成时间，periods为数据量，freq为数据间隔。column = ['a','b','c','d','e','f'] #行标签df.index = dates # 指定索引df.columns = column # 指定行标签
def square_fun(x): a = x**2 return a
df.apply(square_fun,axis=0) # 将df数据全部用square_fun函数计算。或 df.apply(lambda x: x ** 0.5)# axis=0为按列，axis=1为按行。

# 7> DataFrame的排序
df.sort_index(ascending=False) # 按索引升序排列，将ascending改为True是降序。df.sort_index(axis=1,ascending=False) # 按行标签升序排列。df.sort_values(by= 'b', ascending= False) # 按b列升序排列。

# 8> DataFrame 处理缺失值
df_nan = np.sqrt(df).head()print(df_nan) # 对df元素开方。# a b c d e f# 2017-01-01 0.687740 NaN 0.492381 NaN 0.867838 NaN# 2017-01-06 0.071604 NaN NaN 1.694644 NaN 0.687355# 2017-01-11 1.046879 NaN 1.158601 NaN 1.006238 NaN# 2017-01-16 NaN 1.099907 0.708429 0.372621 0.800476 0.726177# 2017-01-21 NaN NaN NaN NaN NaN NaN
# df_nan.isnull() # 判断df_nan中的空值。# df_nan.dropna() # 删除df_nan中的空值（行中有空值就会删除这一行）。axis=1（列中有空值就会删除这一列）df_nan.fillna(0,inplace=True) # 空值用0填充，并替换df_nan.print(df_nan.round(3))# a b c d e f# 2017-01-01 0.688 0.0 0.492 0.000 0.868 0.000# 2017-01-06 0.072 0.0 0.000 1.695 0.000 0.687# 2017-01-11 1.047 0.0 1.159 0.000 1.006 0.000# 2017-01-16 0.000 1.1 0.708 0.373 0.800 0.726# 2017-01-21 0.000 0.0 0.000 0.000 0.000 0.000

【PY从0到1】一文掌握Pandas量化基础的更多相关文章

【PY从0到1】一文掌握Pandas量化进阶
# 一文掌握Pandas量化进阶 # 这节课学习Pandas更深的内容. # 导入库: import numpy as np import pandas as pd # 制作DataFrame np. ...
IIS6(Win2003) 使用.net 4.0 后，默认文档失效解决方案。
IIS6(Win2003) 使用.net framework 4.0 后,默认文档失效解决方案. 用.net framework 4.0 开发的WEB项目,但放到iis6 中无法使用默认文档,状况如下 ...
智表ZCELL产品V1.4.0开发API接口文档与产品功能清单
为了方便大家使用ZCELL,应网友要求,整理编写了相关文档,现与产品一起同步发布,供大家下载使用,使用过程中如有疑问,请与我QQ联系. 智表(ZCELL)V1.4.0版本功能清单文档下载地址: 功 ...
python manage.py runserver 0.0.0.0:8000
python manage.py runserver 这种命令行,可以在服务器端输入IP:8000直接访问在 python manage.py runserver 127.0.01:8000 在服务 ...
第一篇——第一文 SQL Server 备份基础
原文:第一篇--第一文 SQL Server 备份基础当看这篇文章之前,请先给你的所有重要的库做一次完整数据库备份.下面正式开始备份还原的旅程. 原文出处: http://blog.csdn.net ...
pyhton pandas数据分析基础入门（一文看懂pandas）
//2019.07.17 pyhton中pandas数据分析基础入门(一文看懂pandas), 教你迅速入门pandas数据分析模块(后面附有入门完整代码,可以直接拷贝运行,含有详细的代码注释,可以轻 ...
HTML结构文档中那些基础又重要又容易被忽略的事？
HTML结构文档中那些基础又重要又容易被忽略的事? 大部分的人,总是会做出这样下意识地判断:简单就是不重要,容易就可以直接忽略掉!其实不然,简有精髓,基石必重,岂能略而不顾!HTML结构文档的编写,可 ...
06 Zabbix4.0系统CISCO交换机告警模板规划信息(基础)
点击返回:自学Zabbix之路点击返回:自学Zabbix4.0之路点击返回:自学zabbix集锦 06 Zabbix4.0系统CISCO交换机告警模板规划信息(基础) 1. Host groups ...
windows xp .net framework 4.0 HttpWebRequest 报The underlying connection was closed,基础连接已关闭
windows xp .net framework 4.0 HttpWebRequest 报The underlying connection was closed,基础连接已关闭,错误的解决方法在 ...

随机推荐

python--基础2 （数据类型及应用）
资源池链接:https://pan.baidu.com/s/1OGq0GaVcAuYEk4F71v0RWw 提取码:h2sd python数据类型字符串列表字典数字(整数) 数字(浮点数) ...
在 .NET Core Logging中使用 Trace和TraceSource
本文介绍了在.NET Core中如何在组件设计中使用Trace和TraceSource. 在以下方面会提供一些帮助: 1.你已经为.NET Framework和.NET Core / .NET Sta ...
django开发东京买菜,全栈项目,前端vue,带手机GPS精准定位,带发票系统,带快递系统,带微信/支付宝/花呗/银行卡支付/带手机号一键登陆,等等
因为博客园不能发视频,所以,完整的视频,开发文档,源码,请向博主索取完整视频+开发文档+源码,duanshuiLu.com下载 vue+django手机购物商城APP,带支付,带GPS精准定位用户, ...
HDU-4315 Climbing the Hill
题目链接先回到阶梯博弈的裸题中,比如POJ-1704,所有的块只能向左移并且不能跨越,这个向左移的结果我们可以理解为将左边的宽度减少使得右边的宽度增加,等同于阶梯模型中将石子从高阶移动到低阶.那么最 ...
Codeforces Round #690 (Div. 3)
第一次 ak cf 的正式比赛,不正式的是寒假里 div4 的 Testing Round,好啦好啦不要问我为什么没有 ak div4 了,差一题差一题 =.= 不知不觉已经咕了一个月了2333. 比 ...
AtCoder Beginner Contest 173
比赛链接:https://atcoder.jp/contests/abc173/tasks A - Payment 题意计算只用 $1000$ 元支付某个价格 $n$ 的找零是多少. 代码 #inc ...
Codeforces Round #295 (Div. 2) B. Two Buttons (DP)
题意:有两个正整数$n$和$m$,每次操作可以使$n*=2$或者$n-=1$,问最少操作多少次使得$n=m$. 题解:首先,若$n\ge m$,直接输出$n-m$,若\(2 ...
Codeforces Round #673 (Div. 2) C. k-Amazing Numbers (DP,思维)
题意:有一组数,分别用长度从$[1,n]$的区间去取子数组,要求取到的所有子数组中必须有共同的数,如果满足条件数组共同的数中最小的数,否则输出$-1$. 题解:我们先从后面确定每两个相同数之间 ...
Pollard_rho算法进行质因素分解
Pollard_rho算法进行质因素分解要依赖于Miller_Rabbin算法判断大素数,没有学过的可以看一下,也可以当成模板来用讲一下Pollard_rho算法思想: 求n的质因子的基本过程是,先 ...
Codeforces Round #521 (Div. 3)　E. Thematic Contests　(离散化,二分)
题意:有$n$个话题,每次都必须选取不同的话题,且话题数必须是上次的两倍,第一次的话题数可以任意,问最多能选取多少话题数. 题解:我们首先用桶来记录不同话题的数量,因为只要求话题的数量,与话题是多 ...

【PY从0到1】 一文掌握Pandas量化基础