自助法（Bootstraping）

自助法（Bootstraping）是另一种模型验证（评估）的方法（之前已经介绍过单次验证和交叉验证：验证和交叉验证（Validation & Cross Validation））。其以自助采样法（Bootstrap Sampling）为基础，即有放回的采样或重复采样。（注：这是一种样本内抽样的方法，即将样本看作总体并从中进行抽样。）

具体做法是：在含有 m 个样本的数据集中，每次随机挑选一个样本，将其作为训练样本，再将此样本放回到数据集中，这样有放回地抽样 m 次，生成一个与原数据集大小相同的数据集，这个新数据集就是训练集。这样有些样本可能在训练集中出现多次，有些则可能从未出现。原数据集中大概有 36.8% 的样本不会出现在新数据集中。因此，我们把这些未出现在新数据集中的样本作为验证集。把前面的步骤重复进行多次，这样就可以训练出多个模型并得到它们的验证误差，然后取平均值，作为该模型的验证误差。

如果需要在多个不同的模型中进行选择，那么事先留出测试集，然后在剩余的数据集上用自助法验证模型，选择验证误差最小的模型作为最好的模型，然后用训练集+验证集数据按最好模型的设置训练出一个新的模型，作为最终的模型，最后用测试集测试最终的模型。

为什么原数据集中大概有 36.8% 的样本不会出现在新数据集中？假设数据集中有m个样本，那么每次每一个样本被抽取到的概率是1/m，抽样m次，某个样本始终不被抽取到的概率是(1-1/m)^m。当m的取值趋近于无穷大时，样本未被抽中的概率为e的负一次方，结果约等于0.368。

优点：训练集的样本总数和原数据集一样都是 m个，并且仍有约 1/3 的数据不出现在训练集中，而可以作为验证集。

缺点：这样产生的训练集的数据分布和原数据集的不一样了，会引入估计偏差。

用途：自助法在数据集较小，难以有效划分训练集/验证集时很有用；此外，自助法能从初始数据集中产生多个不同的训练集，这对集成学习等方法有很大的好处。

总结：Bootstraping通过重复抽样，避免了Cross Validation造成的样本减少的问题。其次，Bootstraping也可以用于随机创造数据。比如，随机森林算法就是从原始训练数据中，用bootstrap sampling的方法有放回地随机抽取k个新的自助样本集，并由此构建k棵分类回归树。但由于其训练集有重复数据，这会改变数据的分布，因而导致训练结果有估计偏差，因此这种方法不是很常用，除非数据量真的很少。

自助法（Bootstraping）的更多相关文章

Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting的区别
引自http://blog.csdn.net/xianlingmao/article/details/7712217 Jackknife,Bootstraping, bagging, boosting ...
【机器学习】Jackknife，Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting
Jackknife,Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting 这些术语,我经常搞混淆, ...
R语言实战（六）重抽样与自助法
本文对应<R语言实战>第12章:重抽样与自助法之前学习的基本统计分析.回归分析.方差分析,是假定观测数据抽样自正态分布或者其他性质较好的理论分布,进而进行的假设检验和总体参数的置信区间估 ...
R in action读书笔记（17）第十二章重抽样与自助法
12.4 置换检验点评除coin和lmPerm包外,R还提供了其他可做置换检验的包.perm包能实现coin包中的部分功能,因此可作为coin包所得结果的验证.corrperm包提供了有重复测量的相 ...
R in action读书笔记（16）第十二章重抽样与自助法之置换检验
第十二章:重抽样与自助法本章,我们将探究两种应用广泛的依据随机化思想的统计方法:置换检验和自助法 12.1 置换检验置换检验,也称随机化检验或重随机化检验. 有两种处理条件的实验,十个受试者已经被 ...
AngularJS bootStraping
看这个 http://www.dotnet-tricks.com/Tutorial/angularjs/5aWL261214-Understanding-AngularJS-Bootstrap-Pro ...
吴裕雄--天生自然 R语言开发学习：重抽样与自助法（续一）
#-------------------------------------------------------------------------# # R in Action (2nd ed): ...
转载：bootstrap, boosting, bagging 几种方法的联系
转:http://blog.csdn.net/jlei_apple/article/details/8168856 这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, ja ...
bootstrap, boosting, bagging 几种方法的联系
http://blog.csdn.net/jlei_apple/article/details/8168856 这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jack ...

随机推荐

《JAVA高并发编程详解》-Thread start方法的源码
Thread start方法的源码:
记录个超级Update语句
-- UPDATE UPDATE affair_list SET deleteState = WHERE gid IN ( SELECT tt.gid FROM ( SELECT a.gid FROM ...
ASP.NET SignalR 系列（一）之SignalR介绍
一.SignalR介绍 ASP.NET SignalR 是一个面向 ASP.NET 开发人员的库,可简化将实时 web 功能添加到应用程序的过程. 实时 web 功能是让服务器代码将内容推送到连接的客 ...
tf.nn.softmax_cross_entropy_with_logits（）函数的使用方法
import tensorflow as tf labels = [[0.2,0.3,0.5], [0.1,0.6,0.3]]logits = [[2,0.5,1], [0.1,1,3]] a=tf. ...
Java之路---Day09(继承)
2019-10-23-22:58:23 目录 1.继承 2.区分成员变量重名的方法 3.区分成员方法重名的方法 4.继承中重写与重载的区别 5.继承中覆盖重写的注意事项 6.继承中覆盖重写的设计原则 ...
string 转stream和stream转string
string test = “Testing 1-2-3″; // convert string to stream MemoryStream stream = new MemoryStream(); ...
python day 18: thinking in UML与FTP作业重写
目录 python day 18 1. thinking in UML读书小感 2. FTP作业重写 2.1 软件目录结构 2.2 FTPClient端脚本 2.3 FTPServer端脚本 pyth ...
Flask 进阶
OOP 面向对象反射 # __call__方法 # class Foo(object): # def __call__(self, *args, **kwargs): # return "i ...
mysql修改表结构，添加double类型新列
ALTER TABLE t_cas_construction_statistics ADD COLUMN resource_one_online_count DOUBLE(128,0) COMMENT ...
利用chocolatey软件包管理工具安装yarn，比npm更快更稳定
Chocolatey 是一个 Windows 专用的软件包管理工具. Yarn 对你的代码来说是一个包管理器, 你可以通过它使用全世界开发者的代码, 或者分享自己的代码.Yarn 做这些快捷.安全.可 ...

自助法（Bootstraping）

自助法（Bootstraping）的更多相关文章

随机推荐

热门专题