校招在即，准备准备一些面试可能会用到的东西吧。希望这次面试不会被挂。

基本概念

说到机器学习模型的误差，主要就是bias和variance。

Bias：如果一个模型的训练错误大，然后验证错误和训练错误都很大，那么这个模型就是高bias。可能是因为欠拟合，也可能是因为模型是弱分类器。
Variance：模型的训练错误小，但是验证错误远大于训练错误，那么这个模型就是高Variance，或者说它是过拟合。

这个图中，左上角是低偏差低方差的，可以看到所有的预测值，都会落在靶心，完美模型；

右上角是高偏差，可以看到，虽然整体数据预测的好像都在中心，但是波动很大。

【高偏差vs高方差】

在机器学习中，因为偏差和方差不能兼顾，所以我们一般会选择高偏差、低方差的左下角的模型。稳定性是最重要的，宁可所有的样本都80%正确率，也不要部分样本100%、部分50%的正确率。个人感觉，稳定性是学习到东西的体现，高方差模型与随机蒙的有什么区别？

随机森林为例

上面的可能有些抽象，这里用RandomForest(RF)来作为例子：

随机森林是bagging的集成模型，这里：

\(RF(x)=\frac{1}{B}\sum^B_{i=1}{T_{i,z_i}(x)}\)

RF(x)表示随机森林对样本x的预测值；
B表示总共有B棵树；
\(z_i\)表示第i棵树所使用的训练集，是使用bagging的方法，从所有训练集中进行行采样和列采样得到的子数据集。

这里所有的\(z\)，都是从所有数据集中随机采样的，所以可以理解为都是服从相同分布的。所以不断增加B的数量，增加随机森林中树的数量，是不会减小模型的偏差的。

【个人感觉，是因为不管训练再多的树，其实就那么多数据，怎么训练都不会减少，这一点比较好理解】

【RF是如何降低偏差的？】

直观上，使用多棵树和bagging，是可以增加模型的稳定性的。怎么证明的？

我们需要计算\(Var(T(x))\)

假设不同树的\(z_i\)之间的相关系数为\(\rho\),然后每棵树的方差都是\(\sigma^2\).

先复习一下两个随机变量相加的方差如何表示：

\(Var(aX+bY)=a^2 Var(X)+b^2 Var(Y) + 2ab cov(X,Y)\)

Cov(X,Y)表示X和Y的协方差。协方差和相关系数不一样哦，要除以X和Y的标准差：

\(\rho=\frac{cov(X,Y)}{\sigma_X \sigma_Y}\)

下面转成B个相关变量的方差计算，是矩阵的形式：

很好推导的，可以试一试。

这样可以看出来了，RF的树的数量越多，RF方差的第二项会不断减小，但是第一项不变。也就是说，第一项就是RF模型偏差的下极限了。

【总结】

增加决策树的数量B，偏差不变；方差减小；
增加决策树深度，偏差减小；\(\rho\)减小，\(\sigma^2\)增加；
增加bagging采样比例，偏差减小；\(\rho\)增加，\(\sigma^2\)增加；

【bagging vs boost】

之前也提到过了boost算法：

一文读懂：GBDT梯度提升

GBDT中，在某种情况下，是不断训练之前模型的残差，来达到降低bias的效果。虽然也是集成模型，但是可以想到，每一个GBDT中的树，所学习的数据的分布都是不同的，这意味着在GBDT模型的方差会随着决策树的数量增多，不断地增加。

bagging的目的：降低方差；
boost的目的：降低偏差

喜欢的话请关注我们的微信公众号~【你好世界炼丹师】。

公众号主要讲统计学，数据科学，机器学习，深度学习，以及一些参加Kaggle竞赛的经验。
公众号内容建议作为课后的一些相关知识的补充，饭后甜点。
此外，为了不过多打扰，公众号每周推送一次，每次4~6篇精选文章。

微信搜索公众号：你好世界炼丹师。期待您的关注。

算法岗面试题：模型的bias和variance是什么？用随机森林举例的更多相关文章

机器学习模型 bias 和 variance 的直观判断
假设我们已经训练得到一个模型,那么我们怎么直观判断这个模型的 bias 和 variance? 直观方法: 如果模型的训练错误比较大,并且验证错误和训练错误差不多一样,都比较大,我们就 ...
机器学习 —— 决策树及其集成算法(Bagging、随机森林、Boosting)
本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/ 决策树--------------------------------------------- ...
R语言︱决策树族——随机森林算法
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习 ...
spark 随机森林算法案例实战
随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数 ...
干货 | NLP算法岗大厂面试经验与路线图分享
最近有好多小伙伴要面经(还有个要买简历的是什么鬼),然鹅真的没有整理面经呀,真的木有时间(｡ ́︿ ̀｡).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面试来说,作者发现根本不是面经中说的样子 ...
聊聊找AI算法岗工作
https://blog.csdn.net/weixin_42137700/article/details/81628028 首先,本文不是为了增加大家的焦虑感,而是站在一名学生的角度聊聊找AI算法岗 ...
华为2018软件岗笔试题之第一题python求解分享
闲来无事,突然看到博客园首页上有人写了篇了华为2018软件岗笔试题解题思路和源代码分享.看了下题目,感觉第一题能做出来,就想着用刚刚学的python试着写一下,花费的时间有点长~~,看来又好长时间没练 ...
2019大厂Java岗面试题全曝光，刷完这1020道，金三银四大厂等你
2019大厂Java岗面试题全曝光,刷完这1020道,金三银四大厂等你前言: 本文收集整理了各大厂常见面试题N道,你想要的这里都有内容涵盖:Java.MyBatis.ZooKeeper.Dubbo ...
R语言︱机器学习模型评估方案（以随机森林算法为例）
笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评 ...

随机推荐

Rocket - util - Broadcaster
https://mp.weixin.qq.com/s/ohBVNAXZUA538qSxfBGMKA 简单介绍Broadcaster的实现. 1. Broadcaster 广播即是 ...
Java实现蓝桥杯算法提高抽卡游戏
试题算法提高抽卡游戏某个抽卡游戏卡池抽出限定卡的概率为p,该游戏有一个"井"的机制,抽满k次卡后直接送这张限定卡.试求获得这张限定卡需要的期望抽卡次数.输入为一行,用空格隔开 ...
Java实现 LeetCode 637 二叉树的层平均值（遍历树）
637. 二叉树的层平均值给定一个非空二叉树, 返回一个由每层节点平均值组成的数组. 示例 1: 输入: 3 / \ 9 20 / \ 15 7 输出: [3, 14.5, 11] 解释: 第0层的 ...
Java实现固定长度得01子串
固定位数得01子串 Description 对于长度为n的一个01串,每一位都可能是0或1,一共有2 ^n 种可能.请按从小到大的顺序输出这2^n种01串. Input 包含多组数据,每组数据占一行, ...
Java实现二进制幂
1 问题描述使用n的二进制表示,计算a的n次方. 2 解决方案 2.1 从左至右二进制幂此方法计算a的n次方具体思想,引用<算法设计与分析基础>第三版一段文字介绍: package c ...
java实现填写算式
** 填写算式** 看这个算式: ☆☆☆ + ☆☆☆ = ☆☆☆ 如果每个五角星代表 1 ~ 9 的不同的数字. 这个算式有多少种可能的正确填写方法? 173 + 286 = 459 295 + 17 ...
js数据劫持 Object.defineProperty() 作用
原生js Object.defineProperty() 作用假设我们有一个obj对象,我们要给他设置一个name属性会这么做 Object.defineProperty()也可以设置对象属性这个 ...
点击 button 自动刷新页面
问题:为什么点击 button 会刷新页面 ? 原因:你代码的写法可能如下图,把 <button> 按钮写在 <form> </form> 标签里边啦. < ...
CDN百科第三讲 | 如果用了云服务器，还需要做CDN加速吗？
在全站上云的背景下,云计算已经不仅仅是大型互联网公司的独享概念,正在被更多的传统企业.中小企业甚至个人站长所采用.在众多云计算服务中,最常见两个产品就是云服务器和CDN,今天的CDN百科第三讲,就给大 ...
01-Python初体验
本节内容 Python介绍发展史 Python 2 or 3? 安装 Hello World程序变量用户输入模块初识 .pyc是个什么鬼? 数据类型初识数据运算表达式if ...else语 ...

算法岗面试题：模型的bias和variance是什么？用随机森林举例

基本概念

随机森林为例

算法岗面试题：模型的bias和variance是什么？用随机森林举例的更多相关文章

随机推荐

热门专题