机器学习技法总结（四）（aggregation，vote，bootstrap...）

研究的动机是：我们采用了不同的模型得到T个不同的g，那么我们是不是可以通过这些不同的g的融合得到更加出色的G呢？因此，便有了以上四种不同的方法；1）（select）直接选择最好的一个作为融合的结果；2）（uniform）所有的g公平vote；3）（non-uniform）相当于你比较相信某个结果，就赋予它较高的vote权重，这种类似于二次回归问题，就是说，先对不同模型进行优化得到不同的g，然后再次优化做出回归；4）很简单的predictions conditionally。前面的都可以看作是后面的特例。

上图解释了通过aggregation，通过均匀的弱的hypothesis的mix，我们可以实现比较弯弯曲曲的分界线，这是不是实现了特征转换，使得Ein比较小？另外，这样多次的mix，可能使得PLA取得比较靠中间的那个hypothesis，这样是不是就类似了svm中的large margin的效果，这样aggregation就类似于能够较好的实现特征转换和正则化。

在设计融合的时候，要注意一点，如果我们直接从Ein中选择最小的作为目标的话，这就像是扩大了Hypothesis set的大小，那么VC dimension则变大了，很容易出现overfitting，因此，最好的办法还是通过validation来赛选g-，然后再回传g进行融合。如下图所示：

下面如何得到不同的g呢？主要有以下几种：不同模型，不同的参数，不同的数据等...

借助统计中的一个bootstrap可以实现对data的重新采样，得到了一下的方法：

林老师讲了一个利用PLA作为算法，然后借助bootstrap-aggregation得到了如下的效果：

从图中的效果可以看出，其实效果还不错。

主要关注两个方向：一个是g的diversity，二是democracy。

机器学习技法总结（四）（aggregation，vote，bootstrap...）的更多相关文章

机器学习技法课之Aggregation模型
Courses上台湾大学林轩田老师的机器学习技法课之Aggregation 模型学习笔记. 混合(blending) 本笔记是Course上台湾大学林轩田老师的<机器学习技法课>的学习笔记 ...
机器学习技法之Aggregation方法总结：Blending、Learning（Bagging、AdaBoost、Decision Tree）及其aggregation of aggregation
本文主要基于台大林轩田老师的机器学习技法课程中关于使用融合(aggregation)方法获得更好性能的g的一个总结.包含从静态的融合方法blending(已经有了一堆的g,通过uniform:voti ...
机器学习技法笔记(2)-Linear SVM
从这一节开始学习机器学习技法课程中的SVM, 这一节主要介绍标准形式的SVM: Linear SVM 引入SVM 首先回顾Percentron Learning Algrithm(感知器算法PLA)是 ...
Coursera台大机器学习技法课程笔记01-linear hard SVM
极其淡腾的一学期终于过去了,暑假打算学下台大的这门机器学习技法. 第一课是对SVM的介绍,虽然之前也学过,但听了一次感觉还是很有收获的.这位博主总结了个大概,具体细节还是要听课:http://www ...
python机器学习实战（四）
python机器学习实战(三) 版权声明:本文为博主原创文章,转载请指明转载地址 www.cnblogs.com/fydeblog/p/7364317.html 前言这篇notebook是关于机器学 ...
《机器学习技法》---线性SVM
(本文内容和图片来自林轩田老师<机器学习技法>) 1. 线性SVM的推导 1.1 形象理解为什么要使用间隔最大化容忍更多的测量误差,更加的robust.间隔越大,噪声容忍度越大: 1.2 ...
《机器学习技法》---核型SVM
(本文内容和图片来自林轩田老师<机器学习技法>) 1. 核技巧引入如果要用SVM来做非线性的分类,我们采用的方法是将原来的特征空间映射到另一个更高维的空间,在这个更高维的空间做线性的SV ...
机器学习技法总结（五）Adaptive Boosting, AdaBoost-Stump,决策树
上一讲主要利用不同模型计算出来的g.採用aggregation来实现更好的g.假设还没有做出来g.我们能够採用bootstrap的方法来做出一系列的"diversity"的data ...
机器学习技法实现（一）：AdaBoost- Decision Stump （AdaBoost - 决策树的基于Matlab的实现）
经过前面对AdaBoost的总结,下面要基于Matlab实现AdaBoost-Stump进行二维平面数据点的分类的实验. 一. 实验原理参看 http://blog.csdn.net/lg12591 ...

随机推荐

hak的使用
autohotkey简称ahk 它是一款轻量级的脚本语言文件,它可以干任何事情,如做dnf的连发脚本,类似按键精灵的自动化点击,按键自动打开文件一系列事情,文件需要按照ahk自己的语言,实现自定义的脚 ...
idea常用设置汇总
https://www.cnblogs.com/wangmingshun/p/6427088.html
member_template_function
#include <iostream> using namespace std; template<class T> class MyClass{ private: T val ...
msdtc不可用
在使用“经销商园地网上订单处理程序”等程序时,如果程序报:服务器×××上的MSDTC不可用”,可以按照以下方法进行解决: 在windows控制面版-->管理工具-->服务-->Di ...
flask + websocket实现简单的单聊和群聊
单聊 from flask import Flask,request,render_template from geventwebsocket.handler import WebSocketHand ...
volatile 关键词
volatile 关键字指示一个字段可以由多个同时执行的线程修改. 出于性能原因,编译器,运行时系统甚至硬件都可能重新排列对存储器位置的读取和写入. 声明了 volatile 的字段不进行这些优化.这 ...
Discrete Cosine Transform
离散余弦变换由于实信号傅立叶变换的共轭对称性,导致DFT后在频域中有一半的数据冗余.离散余弦变换(DCT)在处理实信号时比离散傅立叶(DFT)变换更具优势.在处理声音信号这类实信号时,DFT得到的结 ...
lxml_time_代理
import requests from pyquery import PyQuery as pq import json import jsonpath from lxml import etree ...
好的想法只是OKR的开始--创业者谨记
每一个出版过作品的作家都有这样的体验:有人找到你,说他有一个极妙的想法,并迫不及待的想和你一起实现这个想法:结局也总是差不多,它们艰难的完成了灵感部分,而你只需要简单的把它写成小说,收益则需要五五分成 ...
Python爬虫 | re正则表达式解析html页面
正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符"). 正则表达式通常被用来匹配.检索.替换和 ...

机器学习技法总结（四）（aggregation，vote，bootstrap...）

机器学习技法总结（四）（aggregation，vote，bootstrap...）的更多相关文章

随机推荐

热门专题