机器学习基石：02 Learning to Answer Yes/No

Perceptron Learning Algorithm

感知器算法，

本质是二元线性分类算法，即用一条线／一个面／一个超平面将1，2维／3维／4维及以上数据集根据标签的不同一分为二。

算法确定后，根据W取值的不同形成不同的h，构成假设集合H。

如2维感知器算法，根据w₀,w₁,w₂的不同取值，构成了不同的h，这些h最终构成H。注意为了方便表示，将阈值的相反数记为w₀，对应的数据点增加一维x₀，恒为1。

而算法就是根据给定数据集D从H中选出与目标模式f最为相似的g。

更新规则／学习过程，

遍历数据集合，若遇到异常点，即由当前W更新为新的W，

若异常点的y值为+1，表明X与当前W的内积值为负，角度过大，更新后角度将会变小；若异常点的y值为-1，表明X与当前W的内积值为正，角度过小，更新后角度将会变大。

更新W的本质其实是从H中选出与f更为相似的h的过程。

注意，更新后不能保证异常点变为正常点，只是异常的程度小了点。

何时停止更新？

在当前W的情况下，遍历D中所有数据点，无异常点时停止更新。

一定能够保证能停止更新吗？即在当前W下无法找到一个新的W使得对应的h与f更为接近？

只要数据线性可分就能！

W_f与W_t的内积值随着更新次数的上升而增大，同时，W_t的模也在增大，

不过，内积增大的程度大于模增大的程度，保证了随着更新次数的上升，W_t与W_f越来越接近。

PLA的优缺点：

优点：简单、快速、任意维度；

缺点：假设数据线性可分，然而我们并不知道f，也就不知道是否可分，再来，要是知道线性可分，W也已经知道了，没有必要再用PLA了；

经过多少次更新才能收敛也不知道，如上证明，T与W_f有关，然而我们不知道W_f。

Pocket Algorithm

若数据线性不可分，使用PA，

即既然异常点无法避免，PA在H中找到一个使得异常点数目最小的h作为g。

注：O(n^k)为多项式型时间复杂度，O(kⁿ)/O(n!)/O(>n!)/...为指数型时间复杂度。

问题分为可解问题和不可解问题，多项式型时间复杂度的可解问题为P问题，验证时为多项式型时间复杂度的为NP问题，能否可解未知。

P问题肯定是NP问题，NP问题不一定是P问题。

PA，初始化W，放到口袋里，若遇到异常点，使用PLA的更新规则得到新的W，遍历数据集，若是新的W下异常点的数目更少，则用新的W替换旧的W放到口袋中，否则不替换。继续遍历数据集，得到下一个异常点，重复上述过程至足够迭代次数。口袋里放的永远是目前使得异常点最少的W。

PA不影响PLA的正常运行，只是从历史W中挑出使得样本内分类错误最少的W作为最终返回值。

如果数据集是线性可分的，PLA和PA都能够实现D内无异常点的分类，

但是PA的时间会长于PLA，因为多了比较两个不同的W下遍历一轮数据所得异常点数目多少的过程。

机器学习基石：02 Learning to Answer Yes/No的更多相关文章

机器学习基石 2 Learning to Answer Yes/No
机器学习基石 2 Learning to Answer Yes/No Perceptron Hypothesis Set 对于一个线性可分的二分类问题,我们可以采用感知器 (Perceptron)这种 ...
机器学习基石笔记：02 Learning to Answer Yes/No、PLA、PA
原文地址:https://www.jianshu.com/p/ed0aee74523f 一.Perceptron Learning Algorithm (一)算法原理 PLA本质是二元线性分类算法,即 ...
02 Learning to Answer Yes/No
Perceptron Learning Algorithm 感知器算法, 本质是二元线性分类算法,即用一条线/一个面/一个超平面将1,2维/3维/4维及以上数据集根据标签的不同一分为二. 算法确定后, ...
机器学习基石 4 Feasibility of Learning
机器学习基石 4 Feasibility of Learning Learning is Impossible? 机器学习:通过现有的训练集 \(D\) 学习,得到预测函数 \(h(x)\) 使得它接 ...
机器学习基石 3 Types of Learning
机器学习基石 3 Types of Learning Learning with Different Output Space Learning with Different Data Label L ...
机器学习基石 1 The Learning Problem
机器学习基石 1 The Learning Problem Introduction 什么是机器学习机器学习是计算机通过数据和计算获得一定技巧的过程. 为什么需要机器学习 1 人无法获取数据或者数据 ...
機器學習基石(Machine Learning Foundations) 机器学习基石课后习题链接汇总
大家好,我是Mac Jiang,非常高兴您能在百忙之中阅读我的博客!这个专题我主要讲的是Coursera-台湾大学-機器學習基石(Machine Learning Foundations)的课后习题解 ...
机器学习基石（台湾大学林轩田），Lecture 1: The Learning Problem
课程的讲授从logo出发,logo由四个图案拼接而成,两个大的和两个小的.比较小的两个下一次课程就可能会解释到它们的意思,两个大的可能到课程后期才会解释到它们的意思(提示:红色代表使用机器学习危险,蓝 ...
机器学习基石第三讲：types of learning
博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) 刚刚完毕机器学习基石的第三讲.这一讲主要介绍了机器学习的分类.对何种问题应该使用何种 ...

随机推荐

lua对多个精灵执行一系列动作，延时失效
function MainPlayerCards:sendCards() local winSize = cc.Director:getInstance():getWinSize() local nS ...
Go实现海量日志收集系统(二)
一篇文章主要是关于整体架构以及用到的软件的一些介绍,这一篇文章是对各个软件的使用介绍,当然这里主要是关于架构中我们agent的实现用到的内容关于zookeeper+kafka 我们需要先把两者启动, ...
简单的C语言编译器--语法分析器
语法分析算是最难的一部分了.总而言之,语法分析就是先设计一系列语法,然后再用设计好的语法去归约词法分析中的结果.最后将归约过程打印出来,或者生成抽象语法树. 1. 设计文法以下是我的文法(引入的 ...
collections deque队列及其他队列
from collections import deque dq = deque(range(10),maxlen=10) dq.rotate(3)#队列旋转操作接受一个参数N,让N>0时,队列 ...
Scrum 冲刺第三日
Scrum 冲刺第三日目录要求项目链接燃尽图问题今日任务明日计划成员贡献量要求各个成员今日完成的任务(如果完成的任务为开发或测试任务,需给出对应的Github代码签入记录截图:如 ...
SpaceVim - 让你的vim变得更加高效和强大
SpaceVim 中文手册项目主页: https://spacevim.org Github 地址 : https://github.com/SpaceVim/SpaceVim SpaceVi ...
java语法基础(总结)
1,关键字:其实就是某种语言赋予了特殊含义的单词. 保留字:其实就是还没有赋予特殊含义,但是准备日后要使用过的单词. 2,标示符:其实就是在程序中自定义的名词.比如类名,变量名,函数名.包含 0-9. ...
第一章 IDEA的使用
第一章 IDEA的使用 1.为什么要使用idea 最智能的IDE IDEA相对于eclipse来说最大的优点就是它比eclipse聪明.聪明到什么程度呢?我们先来看几个简单的例子. A.智能提示重 ...
( 转 ) CORS 有一次 OPTIONS 请求的原理
刚接触前端的时候,以为HTTP的Request Method只有GET与POST两种,后来才了解到,原来还有HEAD.PUT.DELETE.OPTIONS-- 目前的工作中,HEAD.PUT.DELE ...
List集合就这么简单【源码剖析】
前言声明,本文用得是jdk1.8 前一篇已经讲了Collection的总览:Collection总览,介绍了一些基础知识. 现在这篇主要讲List集合的三个子类: ArrayList 底层数据结构是 ...

机器学习基石：02 Learning to Answer Yes/No

机器学习基石：02 Learning to Answer Yes/No的更多相关文章

随机推荐

热门专题