python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share http://www.360doc.com/content/18/1015/10/60075508_794857307.shtml http://w…
正则化 L1范数 蓝色的是范数的解空间,红色的是损失函数的解空间.L2范数和损失函数的交点处一般在坐标轴上,会使\(\beta=0\),当然并不一定保证交于坐标轴,但是通过实验发现大部分可以得到稀疏解. L2范数 蓝色的是范数的解空间;红色的是损失函数的解空间.当两个空间相交时得到目标函数的一个解. 增加了正则化项后,随着r的不断增加,原始的解空间会被不断压缩, 如果选择的\(\lambda\), 可以将最优点压缩到\(\tilde{\beta}\),从而得到复杂程度最小的模型. L2范数和损失…
目录 1.基本知识点介绍 2.各个算法原理 2.1 随机森林 -- RandomForest 2.2 XGBoost算法 2.3 GBDT算法(Gradient Boosting Decision Tree) 2.4 LightGBM提升学习模型 1.基本知识点介绍 RandomForest.XGBoost.GBDT和LightGBM都属于集成学习. 集成学习通过构建并结合多个分类器来完成学习任务,也称为多分类系统,集成学习的目的是通过结合多个机器学习分类器的预测结果来改善基本学习器的泛化能力和…
总结:不平衡数据的分类,(1)数据层面:使用过采样是主流,过采样通常使用smote,或者少数使用数据复制.过采样后模型选择RF.xgboost.神经网络能够取得非常不错的效果.(2)模型层面:使用模型集成,样本不做处理,将各个模型进行特征选择.参数调优后进行集成,通常也能够取得不错的结果.(3)其他方法:偶尔可以使用异常检测技术,主要有IsolationForest,OneClassSVM,LocalOutlierFactor,KMeans,其中IsolationForest效果最好.但是不及前…
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类.回归.排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的.本文尝试一步一步梳理GB.GBDT.xgboost,它们之间有非常紧密的联系,GBDT是以决策树(CART)为基学习器的GB算法,xgboost扩展和改进了GDBT,xgboost算法更快,准确率也相对高一些. 1. Gradient boosting(GB) 机器学习中的学习算法的目标是为了优化或者说最小化loss Function, Gradient…
1.  RF(随机森林)与GBDT之间的区别 相同点: 1)都是由多棵树组成的 2)最终的结果都是由多棵树一起决定 不同点: 1)  组成随机森林的树可以是分类树也可以是回归树,而GBDT只由回归树组成 2)  组成随机森林的树可是并行生成,而GBDT只能是串行生成 3)  随机森林的结果是多棵树表决决定,而GBDT则是多棵树累加之和 4)  随机森林对异常值不敏感,而GBDT对异常值比较敏感 5)  随机森林是通过减少模型的方差来提高性能,而GBDT是减少模型的偏差来提高性能 6)  随机森林…
GBDT和xgboost在竞赛和工业界使用都非常频繁,能有效的应用到分类.回归.排序问题,虽然使用起来不难,但是要能完整的理解还是有一点麻烦的.本文尝试一步一步梳理GB.GBDT.xgboost,它们之间有非常紧密的联系,GBDT是以决策树(CART)为基学习器的GB算法,xgboost扩展和改进了GDBT,xgboost算法更快,准确率也相对高一些. 1. Gradient boosting(GB) 机器学习中的学习算法的目标是为了优化或者说最小化loss Function, Gradient…
把之前学习xgb过程中查找的资料整理分享出来,方便有需要的朋友查看,求大家点赞支持,哈哈哈 作者:tangg, qq:577305810 一.Boosting算法 boosting算法有许多种具体算法,包括但不限于ada boosting \ GBDT \ XGBoost . 所谓 Boosting ,就是将弱分离器 f_i(x) 组合起来形成强分类器 F(x) 的一种方法. 1. Ada boosting 每个子模型模型都在尝试增强(boost)整体的效果,通过不断的模型迭代,更新样本点的权重…
一.Hadoop环境配置概述 三台虚拟机,操作系统为:Ubuntu 16.04. Hadoop版本:2.7.2 NameNode:192.168.72.132 DataNode:192.168.72.135,192.168.72.136 注:具配置过程,不具备介绍了,网上很多. 二.eclipse(JAVA)环境配置概述 操作系统:Windows 10 eclipse版本:Mars.2 Release (4.5.2) 1.hadoop-eclipse-plugin-2.7.2.jar组件放plu…
经常遇到win10/win8.1系统在安装.卸载软件时出现2502.2503错误代码的问题. 解决办法: 1.打开任务管理器后,切换到“详细信息”选项卡,找到explore.exe这个进程,然后结束进程,如下图所示: 2.接下来,点击任务管理器上面的“文件” - “运行新任务”,重新执行explore.exe这个进程,并勾选以管理员权限创建此任务,如下图: 3.接下来就可以正常安装或卸载你的软件了. PS:其实整个过程其实就是把explorer.exe(资源管理器)重启了一下,有的同学说直接在任…