用Python学分析 - 单因素方差分析
单因素方差分析(One-Way Analysis of Variance)
判断控制变量是否对观测变量产生了显著影响
分析步骤
1. 建立检验假设
- H0:不同因子水平间的均值无差异
- H1:不同因子水平间的均值有显著差异
- 【注意】有差异,有可能是所有因子水平间都存在差异,也有可能只有两个因子水平间的均值存在差异
2. 计算检验统计量F值
F = MSA / MSE
MSA = SSA / ( k - 1 ) MSA:组间均方, 对总体方差的一个估计
MSE = SSE / ( n - k ) MSE:组内均方,不论H0是否为真,MSE都是总体方差的一个无偏估计
SST = SSA + SSE SST:总误差平方和,反映全部观测值的离散情况
SSA:组间误差平方和,也称水平项误差平方和,反映各因子水平(总体)的样本均值之间的差异程度
SSE: 组内误差平方和
3. 确定P值
4. 方差分析表
5. 根据给定的显著性水平,并作出决策
根据F值进行假设检验
根据选定的显著性水平,F值大于临界值时,将拒绝原假设
根据P值进行假设检验
6. 进一步分析
方差齐性检验
多重比较检验
- 确定控制变量的不同水平对观测变量的影响程度
- 哪个水平的作用明显区别于其他水平
- 哪个水平的作用是不显著
- 等等
【python分析:用ols模块进行计算】
# 引入数据
import pandas as pd
data_value = { '无促销':[23,19,17,26,28,23,24,30],
'被动促销':[26,22,20,30,36,28,30,32],
'主动促销':[30,23,25,32,48,40,41,46]}# 因变量
da = pd.DataFrame( data_value ).stack()
da.columns = ['水平','观测值'] # ols模块进行分析 from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm formula = '{} ~ {}'.format(da.columns[1], da.columns[0])
model = ols( formula, da ).fit()
anovat = anova_lm(model)
print(anovat)
输出结果:

【python分析:用自定义函数进行计算】
def ANOVA_oneway( df, a = 0.05 ):
from scipy.stats import f
'''
进行单因素方差分析
输入值:df - pd.DataFrame,第一列为水平,第二列为观测值;a - 显著性水平,默认为0.05
返回类型:字典
返回值:方差分析相关数据
'''
res = { 'SSA':0, 'SST':0 }
mu = df[df.columns[1]].mean()
da = df.groupby( df.columns[0] ).agg( {df.columns[1]:['mean','count']})
da.columns = ['mean','count']
res['df_A'] = len(list(da.index)) - 1 # 自由度
# 组间误差平方和
for row in da.index:
res['SSA'] += (da.loc[row,'mean'] - mu )**2 * da.loc[row,'count']
# 总误差平方和
for e in df[df.columns[1]].values:
res['SST'] += (e - mu )**2
res['SSE'] = res['SST'] - res['SSA'] # 组内误差平方和
res['df_E'] = len(df) - res['df_A'] - 1 # 残差自由度
res['df_T'] = len(df) - 1 # 总和自由度
res['MSA'] = res['SSA'] / res['df_A'] # 组间均方
res['MSE'] = res['SSE'] / res['df_E'] # 组内均方
res['F'] = res['MSA'] / res['MSE'] # F值
res['p_value'] = 1 - f(res['df_A'],res['df_E'] ).cdf( res['F']) #p值
res['a'] = a
res['F_alpha'] = f(res['df_A'],res['df_E'] ).ppf( 1-a ) # 基于显著性水平a的F临界值
return res def print_ANOVA_oneway( d, maxedg = 90 ):
'''
打印单因素方差分析表
输入值:d - dict字典,包含分析表所需要的数据; maxedg - 打印输出时装饰分隔符的最大长度
'''
title = '【单因素方差分析表】'
print( title.center( maxedg ))
print( '=' * maxedg )
print( '{:^12s}|{:^16s}|{:^6s}|{:^16s}|{:^12s}|{:^10s}|'.format('误差来源','平方和','自由度','均方和','F','p值'))
print( '-' * maxedg )
print( '{:8s}|{:>18,.4f} |{:>8d} |{:>18,.4f} |{:>11.6f} |{:>10.3%} |'.format( '组间(因子影响)',d['SSA'],d['df_A'],d['MSA'],d['F'],d['p_value']))
print( '{:10s}|{:>18,.4f} |{:>8d} |{:>18,.4f} |'.format( '组内(误差)',d['SSE'],d['df_E'],d['MSE']))
print( '{:14s}|{:>18,.4f} |{:>8d} |'.format( '总和',d['SST'],d['df_T']))
print( '-' * maxedg )
print('备注:显著性水平为 {:.2%} 时,F的临界值是 {:.6f}。'.format(d['a'],d['F_alpha'])) p = 0.95 # 设定置信度水平
maxedg = 93 # 设定输出时装饰分隔符的最大长度
# 计算并输出单因素方差分析表
res = ANOVA_oneway( da, a = 1-p )
print_ANOVA_oneway( res, maxedg = maxedg )

用Python学分析 - 单因素方差分析的更多相关文章
- Python之路,Day22 - 网站用户访问质量分析监测分析项目开发
Python之路,Day22 - 网站用户访问质量分析监测分析项目开发 做此项目前请先阅读 http://3060674.blog.51cto.com/3050674/1439129 项目实战之 ...
- 常用排序算法的python实现和性能分析
常用排序算法的python实现和性能分析 一年一度的换工作高峰又到了,HR大概每天都塞几份简历过来,基本上一天安排两个面试的话,当天就只能加班干活了.趁着面试别人的机会,自己也把一些基础算法和一些面试 ...
- python的引用计数分析(二)
python所有对象引用计数被减少1的情况: 一.对象的别名被赋予新的对象; a = 23345455 # 增加了一个引用 b = a # 增加了一个引用 print(sys.getrefcount( ...
- python的计数引用分析(一)
python的垃圾回收采用的是引用计数机制为主和分代回收机制为辅的结合机制,当对象的引用计数变为0时,对象将被销毁,除了解释器默认创建的对象外.(默认对象的引用计数永远不会变成0) 所有的计数引用+1 ...
- 《构建之法》教学笔记——Python中的效能分析与几个问题
<构建之法:现代软件工程>中第2章对效能分析进行了介绍,基于的工具是VSTS.由于我教授的学生中只有部分同学选修了C#,若采用书中例子讲解,学生可能理解起来比较困难.不过所有这些学生都学习 ...
- python数据抓取分析(python + mongodb)
分享点干货!!! Python数据抓取分析 编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
- 【转】python之random模块分析(一)
[转]python之random模块分析(一) random是python产生伪随机数的模块,随机种子默认为系统时钟.下面分析模块中的方法: 1.random.randint(start,stop): ...
- 单因素方差分析(One Way ANOVA)
Analysis of variance (ANOVA) is a collection of statistical models and their associated estimation p ...
- Python内置类型性能分析
Python内置类型性能分析 timeit模块 timeit模块可以用来测试一小段Python代码的执行速度. class timeit.Timer(stmt='pass', setup='pass' ...
随机推荐
- formatter 操作列表的合并
{field:'22',title:'操作',width:250,align:'center',sortable:true,formatter : function(value, row, index ...
- 《从0到1学习Flink》—— Flink 写入数据到 ElasticSearch
前言 前面 FLink 的文章中我们已经介绍了说 Flink 已经有很多自带的 Connector. 1.<从0到1学习Flink>-- Data Source 介绍 2.<从0到1 ...
- form中onsubmit的使用
form 中的onsubmit在点submit按钮时被触发,如果return false;则结果不会被提交到action中去(也就是提交动作不会发生),如果不返回或者返回true,则执行提交动作.(& ...
- Unity C# 反射
什么是反射 在.NET中的反射也可以实现从对象的外部来了解对象(或程序集)内部结构的功能,哪怕你不知道这个对象(或程序集)是个什么东西,另外.NET中的反射还可以运态创建出对象并执行它其中的方法. 反 ...
- Spring整合Struts2 XML版
1.jar包 <!--spring配置--> <dependency> <groupId>org.springframework</groupId> & ...
- C#数据库(MSSQL)帮助类
/// <summary> /// 数据库帮助类 /// <author>Devin</author> /// </summary> public se ...
- (已解决)Arduino mega2560 R3插在电脑上没有反应
OK,话不多说.网上找了一些资料,感觉都说的不够清晰.自己琢磨了下,有了一个简单粗暴的方法. 步骤1:插上Arduino mega2560板子.没有反应. 步骤2:我的电脑-管理-设备管 ...
- ehcache常用API整理
鉴于csdn的blog的不稳定, 及混乱的编辑器, 和无上传功能, 遂决定彻底投诚javaeye的blog. 数月前整理的一个东西, 作为cache的扫盲文档.参考了它的官方文档. 对ehcache感 ...
- Linux进程的虚拟存储器知识点
http://blog.csdn.net/yxccc_914/article/details/52665713 用libreoffice画表真时有点蛋疼,效率很低.. 深入理解计算机系统->虚拟 ...
- 【BZOJ3930】[CQOI2015] 选数(容斥)
点此看题面 大致题意: 让你求出在区间\([L,H]\)间选择\(n\)个数时,有多少种方案使其\(gcd\)为\(K\). 容斥 原以为是一道可怕的莫比乌斯反演题. 但是,数据范围中有这样一句话:\ ...