特征选择是特征工程中的重要一环,其主要目的是从所有特征中选出相关特征 (relevant feature),或者说在不引起重要信息丢失的前提下去除掉无关特征 (irrelevant feature) 和冗余特征 (redundant feature).进行特征选择的好处主要有以下几种: 降低过拟合风险,提升模型效果 提高训练速度,降低运算开销 更少的特征通常意味着更好的可解释性 不同的模型对于无关特征的容忍度不同,下图来自< Applied Predictive Modeling > (P48…
参考:http://emuch.net/html/201102/2841741.html 首先是目的不同.F检验用于比较两种分析方法是否存在显著差异(单边检验)或者两种方法紧密度是否存在差异(双边检验),我记得老师说是用于检验新方法是否可行,相当于系统误差.而T检验是利用统计量t,检验操作是否存在误差,或者不同人(不同实验组)之间是否存在误差.按这种说法,如果为了彻底检验新方法,就得必须先做F检验,再做T检验(不存在系统误差方法才可行).简单的说T检验时检验平均值的,F检验时检验标准方差的.第二…
过滤法总结 到这里我们学习了常用的基于过滤法的特征选择,包括方差过滤,基于卡方,F检验和互信息的相关性过滤,讲解了各个过滤的原理和面临的问题,以及怎样调这些过滤类的超参数.通常来说,我会建议,先使用方差过滤,然后使用互信息法来捕捉相关性,不过了解各种各样的过滤方式也是必要的.所有信息被总结在下表,大家自取:…
一.特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征:另一块是我们从业务特征中自己去寻找高级数据特征.我们就针对这两部分来分别讨论. 二.选择合适的特征 我们首先看当业务已经整理好各种特征数据时,我们如何去找出适合我们问题需要的特征,此时特征数可能成百上千,哪些才是我们需要的呢? 第一步是找到该领域懂业务的专家,让他们给一些建议.比如我们需要解决一个药品疗效的分类问题,那么先找到领域专家,向他们咨询哪些因素(特征)会对该…
目录 特征选择 (feature_selection) Filter 1. 移除低方差的特征 (Removing features with low variance) 2. 单变量特征选择 (Univariate feature selection) Wrapper 3. 递归特征消除 (Recursive Feature Elimination) Embedded 4. 使用SelectFromModel选择特征 (Feature selection using SelectFromMode…
http://blog.renren.com/share/223170925/14708690013 常用显著性检验 1.t检验 适用于计量资料.正态分布.方差具有齐性的两组间小样本比较.包括配对资料间.样本与均数间.两样本均数间比较三种,三者的计算公式不能混淆. 2.t'检验 应用条件与t检验大致相同,但t′检验用于两组间方差不齐时,t′检验的计算公式实际上是方差不齐时t检验的校正公式. 3.U检验 应用条件与t检验基本一致,只是当大样本时用U检验,而小样本时则用t检验,t检验可以代替U检验.…
做线性回归的时候,检验回归方程和各变量对因变量的解释参数很容易搞混乱,下面对这些参数进行一下说明: 1.t检验:t检验是对单个变量系数的显著性检验   一般看p值:    如果p值小于0.05表示该自变量对因变量解释性很强. 2.F检验:F检验是对整体回归方程显著性的检验,即所有变量对被解释变量的显著性检验 3.P值:P值就是t检验用于检测效果的一个衡量度,t检验值大于或者p值小于0.05就说明该变量前面的系数显著,选的这个变量是有效的. 4.R方:拟合优度检验 5.调整后的R方: 小结: t检…
Alink漫谈(二十) :卡方检验源码解析 目录 Alink漫谈(二十) :卡方检验源码解析 0x00 摘要 0x01 背景概念 1.1 假设检验 1.2 H0和H1是什么? 1.3 P值 (P-value) 1.4 交叉表 1.5 卡方 1.5.1 公式 1.5.2 基本思想 1.5.3 实现过程 1.6 自由度 0x02 示例代码 0x03 总体逻辑 0x04 训练 4.1 ChiSquareTest 4.2 Crosstab 4.3 构建卡方检验 0xFF 参考 0x00 摘要 Alink…
十分钟学习自然语言处理概述 作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述.关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理.(本文原创,转载注明出处:十分钟学习自然语言处理概述  ) 1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现.文本挖掘的准备工作由文本收集.文本分…
Basis(基础): SSE(Sum of Squared Error, 平方误差和) SAE(Sum of Absolute Error, 绝对误差和) SRE(Sum of Relative Error, 相对误差和) MSE(Mean Squared Error, 均方误差) RMSE(Root Mean Squared Error, 均方根误差) RRSE(Root Relative Squared Error, 相对平方根误差) MAE(Mean Absolute Error, 平均绝…