An example of using Pandas for regression
An example of using Pandas for regression
这个例子来自这本书 - "Python for Data Analysis", 这本书的作者 Wes McKinney 就是pandas的作者。

pandas提供了一些很方便的功能,比如最小二乘法(OLS),可以用来计算回归方程式的各个参数。 同时pandas还可以输出类似ANOVA的汇总信息,比如决定系数(R平方), F 统计量等。
OK,直接上例子。
数据准备
首先创建1000只股票,股票代码(5个字符)通过随机方式生成。
In [29]: import string
In [32]: import random
In [33]: random.seed(0)
In [34]: N = 1000
In [35]: def rands(n):
....: choices = string.ascii_uppercase
....: return ''.join([random.choice(choices) for _ in xrange(n)])
....:
In [36]: tickers = np.array([rands(5) for x in xrange(N)])
回归分析
假设现在有个 multiple factor model, 如下所示:
y = 0.7 * x1 - 1.2 * x2 + 0.3 * x3 + random value
按照这个模型创建一个portfolio, 然后我们再拿实际得到的值来跟这3个factor来做下回归分析,看得到的系数是不是跟上面的这个model比较接近。
首先创建三个随机数组(每个大小都为1000, 对应刚才创建的1000只股票),分别为fac1, fac2, 和fac3.
In [58]: from numpy.random import rand
In [59]: fac1, fac2, fac3 = np.random.rand(3, 1000)
In [62]: ticker_subset = tickers.take(np.random.permutation(N)[:1000])
用选择的1000只股票按照上面的model创建portfolio, 得到的一组值也就是因变量y.
In [64]: port = Series(0.7*fac1 - 1.2*fac2 + 0.3*fac3 + rand(1000), index=ticker_subset)
现在我们用实际得到y和x1/x2/x3来做下回归。 首先把三个factors 构建成DataFrame.
In [65]: factors = DataFrame({'f1':fac1, 'f2':fac2, 'f3':fac3}, index=ticker_subset)
然后就直接调用pd.ols方法来进行回归 -
In [70]: pd.ols(y=port, x=factors)
Out[70]:
-------------------------Summary of Regression Analysis-------------------------
Formula: Y ~ <f1> + <f2> + <f3> + <intercept>
Number of Observations: 1000
Number of Degrees of Freedom: 4
R-squared: 0.6867
Adj R-squared: 0.6857
Rmse: 0.2859
F-stat (3, 996): 727.6383, p-value: 0.0000
Degrees of Freedom: model 3, resid 996
-----------------------Summary of Estimated Coefficients------------------------
Variable Coef Std Err t-stat p-value CI 2.5% CI 97.5%
--------------------------------------------------------------------------------
f1 0.6968 0.0311 22.44 0.0000 0.6359 0.7577
f2 -1.2672 0.0312 -40.64 0.0000 -1.3283 -1.2061
f3 0.3345 0.0310 10.80 0.0000 0.2738 0.3952
intercept 0.5018 0.0275 18.28 0.0000 0.4480 0.5557
---------------------------------End of Summary---------------------------------
In [71]:
根据回归结果,得到的方程式是 -
y = 0.5018 + 0.6968 * f1 - 1.2672 * f2 + 0.3345 * f3
对比下实际的model -
y = 0.7 * x1 - 1.2 * x2 + 0.3 * x3 + random value
可以看出还是比较match的。这个从每个参数p-value也可以看出来。
另外,如果只想关注每个系数,可以直接读取beta.
In [71]: pd.ols(y=port, x=factors).beta
Out[71]:
f1 0.696817
f2 -1.267172
f3 0.334505
intercept 0.501836
dtype: float64
怎么样,感觉pandas是不是棒棒哒!
An example of using Pandas for regression的更多相关文章
- 逻辑回归 Logistic Regression
逻辑回归(Logistic Regression)是广义线性回归的一种.逻辑回归是用来做分类任务的常用算法.分类任务的目标是找一个函数,把观测值匹配到相关的类和标签上.比如一个人有没有病,又因为噪声的 ...
- Logistic Regression and Gradient Descent
Logistic Regression and Gradient Descent Logistic regression is an excellent tool to know for classi ...
- Gradient Boosted Regression Trees 2
Gradient Boosted Regression Trees 2 Regularization GBRT provide three knobs to control overfitting ...
- Logistic Regression:银行贷款申请审批实例
问题定义 这是一个贷款的审批问题,假设你是一个银行的贷款审批员,现在有客户需要一定额度的贷款,他们填写了个人的信息(信息在datas.txt中给出),你需要根据他们的信息,建立一个分类模型,判断是否可 ...
- 03.Regression
01.regression # -*- coding: utf-8 -*- """ scipy 패키지 선형 회귀분석 """ from s ...
- Linear Regression with machine learning methods
Ha, it's English time, let's spend a few minutes to learn a simple machine learning example in a sim ...
- [机器学习]回归--Decision Tree Regression
CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值:当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题. ...
- [机器学习]回归--Support Vector Regression(SVR)
来计算其损失. 而支持向量回归则认为只要f(x)与y偏离程度不要太大,既可以认为预测正确,不用计算损失,具体的,就是设置阈值α,只计算|f(x)−y|>α的数据点的loss,如下图所示,阴影部分 ...
- [机器学习]回归--Polinomial Regression 多项式回归
首先我们需要明确一个概念,我们讨论的线性或者非线性针对的是自变量的系数,而非自变量本身,所以这样的话不管自变量如何变化,自变量的系数如果符合线性我们就说这是线性的.所以这里我们也就可以描述一下多项式线 ...
随机推荐
- ArcGIS放射状流向地图
今年百度推出了一个百度迁徙,在其他人看是好像是还挺专业的,其实不复杂.下面是百度的迁徙图示例:从图中可以看出从一个城市到另一个城市迁徙的直线路径,多个路径可以反映城市是否为热点城市,即人口流动比较大. ...
- Android 四大组件之 Service(二)
这里主要介绍Service组件的使用. 1.定义一个继承Service的子类 如下: package com.service; import android.app.Service; import a ...
- 微信小程序 - 各种示例
示例更新(后续持续更新): 最后一次更新:2018-11-7 小程序-地图显示(调用高德地图.腾讯App) - (2018-11-1) 小程序-上传图片(上传.预览.展示.删除) - (2018-11 ...
- [转]自定义Drawable实现灵动的红鲤鱼动画(下篇)
小鱼儿 上篇文章自定义Drawable实现灵动的红鲤鱼动画(上篇)我们绘制了可以摆动身体的小鱼,本篇就分享一下如何让小鱼游到手指点击的位置.用到的主要技术如下: 1).三阶贝塞尔曲线 2).Pat ...
- Ubuntu 12.04解决重启后resolv.conf清空的问题
这跟以前用RHT系的 情况是完全不一样的: 在google上搜了一下,发现这里面还真有些奥妙: 1 /etc/resolv.conf 其实是一个Link 它其实指向的是 /run/resolvconf ...
- sqlserver ssms ctrl+e快捷键问题
大部分的环境 win2008R2+sqlserver2014R2 ssms 中 ctrl+e都是可以执行查询的,某些情况下,ctrl+e是个组合键 ctrl+e已按下,正在等待按下第二个键 调整方法 ...
- PLSQL报错:"动态执行表不可访问,本会话的自动统计被禁止"
PLSQL报错:"动态执行表不可访问,本会话的自动统计被禁止" CreationTime--2018年7月16日19点26分 Author:Marydon 1.情景展示 2.解 ...
- eclipse A Java Runtime Environment(JRE)
eclipse A Java Runtime Environment(JRE) CreateTime--2018年5月13日18点17分 Author:Marydon 1.问题描述 2.问题解析 ...
- java Socket Tcp 浏览器和服务器(一)
自定义服务端,使用已有的客户端IE,了解一下客户端给服务端发了什么请求? 发送的请求是: GET / HTTP/1.1 请求行 请求方式 /myweb/1.html 请求的资源路径 htt ...
- 解决python:'ascii' codec can't encode characters in position问题
今天把一个列表转换成字符串输出的时候出现了UnicodeEncodeError: 'ascii' codec can't encode characters in position 32-34: or ...