box-cox解读

可以额外参考资料：https://blog.csdn.net/sinat_26917383/article/details/77864582，http://www.dataguru.cn/article-12380-1.html

　　由于线性回归是基于正态分布的前提假设，所以对其进行统计分析时，需经过数据的转换，使得数据符合正态分布。

　　Box 和 Cox在1964年提出的Box-Cox变换可使线性回归模型满足线性性、独立性、方差齐性以及正态性的同时，又不丢失信息。

　　Box-Cox变换是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。在做线性回归的过程中，不可观测的误差可能是和预测变量相关，于是给线性回归的最小二乘法估计系数的结果带来误差，为了解决这样的方差齐性问题，所以考虑对相应因变量做Box-Cox变换，变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性。但是选择的参数要适当，使用极大似然估计得到的参数，可以使上述过程的效果更好。当然，做过Box-Cox变换之后，方差齐性的问题不一定会消失，做过之后仍然需要做方差齐性的检验，看是否还需要采用其他方法。

1. 应用前提：

在做线性回归的过程中，一般线性模型假定； Y=Xβ + ε，其中ε满足正态分布，但是利用实际数据建立回归模型时，个别变量的系数通不过。例如往往不可观测的误差 ε 可能是和预测变量相关的，不服从正态分布，于是给线性回归的最小二乘估计系数的结果带来误差，为了使模型满足线性性、独立性、方差齐性以及正态性，需改变数据形式，故应用box-cox转换。

2. 和其他处理方法的比较：

对于非正太数据的转换方法有：

在一些情况下（P值<0.003）上述方法很难实现正态化处理，所以优先使用Box-Cox转换，但是当P值>0.003时两种方法均可，优先考虑普通的平方变换。

Box-Cox推导公式见参考，这里可用sklearn、SAS等实现。

3. 结论

使用Box-Cox变换后的数据得到的回归模型优于变换前的模型，变换可以使模型的解释力度等性能更加优良。
变换后的残差可以更好的满足正态性、独立性等假设前提，降低了伪回归的概率。
使用Box-Cox变换族一般可以保证将数据进行成功的正态变化，但在二分变量或较少水平的等级变量的情况下，不能成功进行转换，此时可以考虑使用广义线性模型，例如logistic模型、johson转换等。

注：关于P值：

假设检验中常见到P值( P-Value，Probability，Pr)，P值是进行检验决策的另一个依据。

P值即概率，反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值，一般以P < 0.05 为有统计学差异， P<0.01 为有显著统计学差异，P<0.001为有极其显著的统计学差异。其含义是样本间的差异由抽样误差所致的概率小于0.05 、0.01、0.001。实际上，P值不能赋予数据任何重要性，只能说明某事件发生的几率。统计结果中显示Pr > F，也可写成Pr( >F)，P = P{ F0.05 > F}或P = P{ F0.01 > F}。统计学上一般P值大于0.05我们可认为该组数据是符合正态分布。

box-cox解读的更多相关文章

SAS PROC MCMC example in R: Logistic Regression Random-Effects Model（转）
In this post I will run SAS example Logistic Regression Random-Effects Model in four R based solutio ...
Kaggle比赛（二）House Prices: Advanced Regression Techniques
房价预测是我入门Kaggle的第二个比赛,参考学习了他人的一篇优秀教程:https://www.kaggle.com/serigne/stacked-regressions-top-4-on-lead ...
stacking method house price in kaggle top10%
整合几部分代码的汇总隐藏代码片段导入python数据和可视化包导入统计相关的工具导入回归相关的算法导入数据预处理相关的方法导入模型调参相关的包读取数据特征工程缺失值类别特征处理-l ...
解读SSD中的Default box（Prior Box）
1:SSD更具体的框架如下: 2: Prior Box 缩进在SSD中引入了Prior Box,实际上与anchor非常类似,就是一些目标的预选框,后续通过softmax分类+bounding box ...
解析opencv中Box Filter的实现并提出进一步加速的方案（源码共享）。
说明:本文所有算法的涉及到的优化均指在PC上进行的,对于其他构架是否合适未知,请自行试验. Box Filter,最经典的一种领域操作,在无数的场合中都有着广泛的应用,作为一个很基础的函数,其性能的好 ...
时空上下文视觉跟踪（STC）算法的解读与代码复现（转）
时空上下文视觉跟踪(STC)算法的解读与代码复现 zouxy09@qq.com http://blog.csdn.net/zouxy09 本博文主要是关注一篇视觉跟踪的论文.这篇论文是Kaihua Z ...
Object Detection · RCNN论文解读
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object D ...
DCGAN 论文简单解读
DCGAN的全称是Deep Convolution Generative Adversarial Networks(深度卷积生成对抗网络).是2014年Ian J.Goodfellow 的那篇开创性的 ...
CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读作者 | 文永亮研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
AAAI2019 | 基于区域分解集成的目标检测论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测论文解读作者 | 文永亮学 ...

随机推荐

Elasticsearch的null values
很多时候,我们需要面临null值的烦扰,查询es时传入null值是要查询出null的数据还是不查这个field呢,稍有不慎就会引发新的bug,这的确是个问题! null_value 意味着无法索引或搜 ...
ZROI 暑期高端峰会 A班 Day3 字符串
FBI Warning:本文含有大量人类的本质之一后缀树反正后缀树就是反串的后缀自动机的 Parent 树,就不管了. 然而 SAM 也忘了好的假装自己会吧--dls 后缀自动机大概记得,不管 ...
tensorflow学习笔记(三)：实现自编码器
黄文坚的tensorflow实战一书中的第四章,讲述了tensorflow实现多层感知机.Hiton早年提出过自编码器的非监督学习算法,书中的代码给出了一个隐藏层的神经网络,本人扩展到了多层,改进了代 ...
sizeof 计算 struct 占字节数的方法总结
矛盾焦点: 1.结构体的内存对齐方式字节对齐的目的: 1.提高CPU存储变量的速度计算的核心点(默认对齐方式): 1.结构体内的每一个成员的起始地址跟结构体起始地址的偏移量要刚好是自己字节数的整数 ...
【K8S】Kubernetes: --image-pull-policy always does not work
https://stackoverflow.com/questions/45905999/kubernetes-image-pull-policy-always-does-not-work
JS数据结构第一篇---算法之复杂度判断
1.算法:算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作. 那么一个怎样的算法才能称得上是好算法,也就是说有没有什么标准来评判一个算法的好坏? 在此之 ...
深入理解JVM-对象已死吗
在堆中存放着Java世界中几乎所有的对象的实例,垃圾收集器在对堆进行垃圾回收前,第一件事情就是要确定这些对象中还有那些是"存活"着,那些已经死去(即不能再被任何途径使用的对象). ...
@Import导入自定义选择器
@Import导入自定义选择器之前一篇博文:Spring中的@Import注解已经详细介绍了@Import注解,不赘述. 需求描述通过@import注解自定义组件选择器,将满足我们自定义的规则的b ...
spring boot 源码解析52-actuate中MVCEndPoint解析
今天有个别项目的jolokia的endpoint不能访问,调试源码发现:endpoint.enabled的开关导致的. 关于Endpoint, <Springboot Endpoint之二:En ...
通过ip查询相关网络位置信息
结果: