1 用回归来做分类

到目前为止，我们学习了线性分类，线性回归，逻辑回归这三种模型。以下是它们的pointwise损失函数对比（为了更容易对比，都把它们写作s和y的函数，s是wTx，表示线性打分的分数）：

把这几个损失函数画在一张图上：

如果把逻辑回归的损失函数ce做一个适当的放缩，则可以得到下图：

可以看出，平方误差和放缩后的交叉熵误差是0／1误差的上限，这里以放缩后的ce举例，由于对于每个点的error均成立不等式，则不论是对于Ein还是Eout仍然有不等式成立，因为它们是数据集上每个点error的期望：

应用到VCbound，就有：

可以看出，只要把训练集上的交叉熵误差做到低，则就能保证真实的0/1错误也比较低。

因此线性回归和逻辑回归都可以用来做分类：

正如之前在《噪声与错误》一节中所说，我们这里用平方错误或交叉熵错误来代替01错误，作为errhat。

通常，我们会使用线性回归的结果作为逻辑回归，PLA，pocket算法的初始值。

2 随机梯度下降法

（注：课程里面并没有证明为什么SGD能work，直接说这样替代是可行的。）

使用随机选取一个点的梯度来代替真实的梯度，计算代价明显降低，同时能保证效果是近似的。（收敛速度会变慢，因为最快的收敛方向一定是真实的梯度方向）。

PLA和逻辑回归的联系：

当逻辑回归使用SGD时，与PLA形式上很类似，可以看作是一种soft-PLA。因为PLA是要么更新，要么不更新，而使用SGD的逻辑回归则是每次更新一定的值：

注意，对于随机梯度下降法来说，停止的条件一般是足够的迭代次数，而不是看梯度是否为0。否则再去算梯度是否为0，就没有必要用SGD了。

3 用逻辑回归做多元分类

先介绍一种简单的方法，OVA：

要做k元分类，我们相当于对同一个训练数据集训练k个二元逻辑回归模型。训练第k个模型时，标签做一定的修改，类别是k就把标签记为1，不是k就记为-1。

在做预测时，就是对这k个模型都算一遍，选择打分最大的作为预测类别：

上面的算法的一个缺点是，当k很大且每个类别的样本数量均匀时，对每个训练来说就是不均衡的。可以使用下面的算法OVO来解决这个问题：

训练C(k,2)个二分类模型，每个模型训练只使用两个类的数据，显然这样就是均衡的。做预测时，每个模型投票给一个类，最终选用得票数最多的类作为预测结果：

另外一种方法，是使用soft-max回归。事实上，逻辑斯蒂函数是soft-max函数的一个特例。

《机器学习基石》---Linear Models for Classification的更多相关文章

机器学习基石11-Linear Models for Classification
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头微信公众号:AI有道上一节课,我们介绍了Logistic Regression问题,建立cross ...
机器学习基石笔记：11 Linear Models for Classification
一.二元分类的线性模型线性分类.线性回归.逻辑回归: 可视化这三个线性模型的代价函数, SQR.SCE的值都是大于等于0/1的. 理论分析上界: 将回归应用于分类: 线性回归后的参数值常用于pla/ ...
机器学习基石笔记：11 Linear Models for Classification、LC vs LinReg vs LogReg、OVA、OVO
原文地址:https://www.jianshu.com/p/6f86290e70f9 一.二元分类的线性模型线性回归后的参数值常用于PLA/PA/Logistic Regression的参数初始化 ...
Coursera台大机器学习课程笔记10 -- Linear Models for Classification
这一节讲线性模型,先将几种线性模型进行了对比,通过转换误差函数来将linear regression 和logistic regression 用于分类. 比较重要的是这种图,它解释了为何可以用Lin ...
PRML读书会第四章 Linear Models for Classification(贝叶斯marginalization、Fisher线性判别、感知机、概率生成和判别模型、逻辑回归)
主讲人 planktonli planktonli(1027753147) 19:52:28 现在我们就开始讲第四章,第四章的内容是关于线性分类模型,主要内容有四点:1) Fisher准则的分类,以 ...
11 Linear Models for Classification
一.二元分类的线性模型线性分类.线性回归.逻辑回归可视化这三个线性模型的代价函数 SQR.SCE的值都是大于等于0/1的理论分析上界将回归应用于分类线性回归后的参数值常用于pla/pa/lo ...
Regression：Generalized Linear Models
作者:桂. 时间:2017-05-22 15:28:43 链接:http://www.cnblogs.com/xingshansi/p/6890048.html 前言本文主要是线性回归模型,包括: ...
Generalized Linear Models
作者:桂. 时间:2017-05-22 15:28:43 链接:http://www.cnblogs.com/xingshansi/p/6890048.html 前言主要记录python工具包:s ...
[Scikit-learn] 1.5 Generalized Linear Models - SGD for Classification
NB: 因为softmax,NN看上去是分类,其实是拟合(回归),拟合最大似然. 多分类参见:[Scikit-learn] 1.1 Generalized Linear Models - Logist ...

随机推荐

Spring Cloud Alibaba | 序言
目录 Spring Cloud Alibaba | 序言 1. Spring Cloud Alibaba是什么? 2. 主要功能 3. 组件 4. 版本说明 4.1 版本依赖关系 4.2 组件版本关系 ...
ES6中的解构
数组中的解构: 输出 : 白板幺鸡二条对象的解构: 输出: 老王 12 数组的结构用[];对象的解构用{}:一定要区分它是数组还是解构. 区分方法:看它是在赋值还是在拿值,等号左边,都为解构, ...
Appium+python自动化（二十一）- 让猴子按你指令大闹手机，让你成为耍猴高手 - Monkey（猴子） - MonkeyScript（超详解）
简介一年一度的暑假如期而至,每年必不可少的,便是<西游记>这部经典电视连续剧的播出,作为一名90后,对于这部经典剧的情谊,就是观看已成为一种习惯.依然深刻的记得,小时候妈妈为了催促我睡觉 ...
性能测试-实例讲解VU、RPS、RT公式换算
概述今天看到一篇文章讲解VU.RPS.RT,中间有一个公式如下图并发数 = RPS * 响应时间于是我在本地做了几次实验,试图验证一下公式的准确性实验网站 www.baidu.com 第一次 ...
找到linux中当前java的安装位置
先看java -version $java version "1.8.0_111" Java(TM) SE Runtime Environment (build 1.8.0_111 ...
Spring 核心技术（4）
接上篇:Spring 核心技术(3) version 5.1.8.RELEASE 1.4.2 依赖关系及配置详情如上一节所述,你可以将 bean 属性和构造函数参数定义为对其他托管 bean(协作者 ...
python字符编码-文件操作
字符编码字符编码历史及发展为什么有字符编码 ''' 原因:人们想要将数据存入计算机计算机的能存储的信息都是二进制的数据内存是基于电工作的,而电信号只有高低频两种,就用01来表示高低电频,所以计 ...
Linux命令大全（简）
rm--删除文件和目录 -i 删除一个已存在的文件前,提示用户进行确认. -r 递归的删除目录. mkdir--创建目录 cp--复制文件和目录 -i 在覆盖一个已存在的目录前,提示用户进 ...
DEDECMS教程：织梦栏目更新HTML出现“模板文件不存在，无法解析文档”的解决方法（转）
ElasticSearch全文搜索引擎
一.ElasticSearch简介 1.1 什么是ElasticSearch ElasticSearch简称ES,其中Elastic 从名字里我们可以知道,ES的特点就在于灵活的搜索,其实E ...

《机器学习基石》---Linear Models for Classification

1 用回归来做分类

2 随机梯度下降法

3 用逻辑回归做多元分类

《机器学习基石》---Linear Models for Classification的更多相关文章

随机推荐

热门专题