转自:https://zhuanlan.zhihu.com/p/78809853 1.IV值的用途 IV,即信息价值(Information Value),也称信息量. 目前还只是在对LR建模时用到过这两个关键指标,当我们使用决策树时可以通过限制树的深度间接筛选掉一些对于当前任务贡献比较小的变量, 而LR则是给多少变量就使用多少变量(L2正则下).通常我们为了保证模型的有效性以及数据的全面性,在特征工程中会尽可能多的提供特征变量,包括衍生变量,这些衍生变量不会全部进入模型进行训练,否则模型会因为…
转自:https://zhuanlan.zhihu.com/p/79934510 风控业务背景 在风控中,我们常用KS指标来评估模型的区分度(discrimination).这也是风控模型同学最为追求的指标之一.那么,有多少人真正理解KS背后的内涵?本文将从区分度的概念.KS的计算方法.业务指导意义.几何解释.数学思想等多个维度展开分析,以期对KS指标有更为深入的理解认知. 目录Part 1. 直观理解区分度的概念Part 2. KS统计量的定义Part 3. KS的计算过程及业务分析Part…
转自:https://zhuanlan.zhihu.com/p/79682292 风控业务背景 在风控中,稳定性压倒一切.原因在于,一套风控模型正式上线运行后往往需要很久(通常一年以上)才会被替换下线.如果模型不稳定,意味着模型不可控,对于业务本身而言就是一种不确定性风险,直接影响决策的合理性.这是不可接受的. 本文将从稳定性的直观理解.群体稳定性指标(Population Stability Index,PSI)的计算逻辑.PSI背后的含义等多维度展开分析. 目录Part 1. 稳定性的直观理…
1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表.那么我们怎么去挑选入模变量呢? 挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和…
IV: 某个特征中 某个小分组的 响应比例与未响应比例之差 乘以 响应比例与未响应比例的比值取对数 数据挖掘模型中的IV和WOE详解 http://blog.csdn.net/kevin7658/article/details/50780391 用 iv而不用woe原因: 4.关于IV和WOE的进一步思考   4.1 为什么用IV而不是直接用WOE   从上面的内容来看,变量各分组的WOE和IV都隐含着这个分组对目标变量的预测能力这样的意义.那我们为什么不直接用WOE相加或者绝对值相加作为衡量一…
我们要知道三维空间中的点在图像中的位置,就需要提取特征与特征匹配了. 1.检测特征点 2.计算描述子 3.特征匹配 1.检测特征点 我们用到的检测特征点的方法是FAST算法,最大的特点就是快! 算法原理:遍历图像,找到所有的角点.我们就拿一个角点举例,例如只拿到一个角点p,设其像素灰度值为I,取这个角点以三为半径的圆上的所有像素点,能取到16个,然后设定一个阈值t,如果连续n个像素点的灰度值都大于I+t或者都小于I-t.我们则认为其为特征点.接着计算方向:特征点与重心的角度. 2.计算描述子 描…
1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表.那么我们怎么去挑选入模变量呢? 挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和…
参考:https://blog.csdn.net/iterate7/article/details/78881562 在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能提高算法的收敛速度. 什么是特征缩放 特征缩放的目标就是数据规范化,使得特征的范围具有可比性.它是数据处理的预处理处理,对后面的使用数据具有关键作用. 机器算法为什么要特征缩放 特征缩放还…
1.IV的用途   IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表.那么我们怎么去挑选入模变量呢? 挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生…
原文地址:Using Feature Queries in CSS 原文作者:Jen Simmons 译文出自:掘金翻译计划 本文永久链接:github.com/xitu/gold-m… 译者:Cherry 校对者:LeviDing.H2O-2 在 CSS 中使用特征查询 CSS 中有一个你可能还没有听说过的工具.它很强大.它已经存在一段时间了.并且它很可能会成为你最喜欢的 CSS 新功能之一. 这就是 @supports 规则,也被称为 Feature Queries. 通过使用 @suppo…