Stanford大学机器学习公开课（六）：朴素贝叶斯多项式模型、神经网络、SVM初步

（一）朴素贝叶斯多项式事件模型

在上篇笔记中，那个最基本的NB模型被称为多元伯努利事件模型（Multivariate Bernoulli Event Model，以下简称 NB-MBEM）。该模型有多种扩展，一种是在上一篇笔记中已经提到的每个分量的多值化，即将p(xi|y)由伯努利分布扩展到多项式分布；还有一种在上一篇笔记中也已经提到，即将连续变量值离散化。本文将要介绍一种与多元伯努利事件模型有较大区别的NB模型，即多项式事件模型（Multinomial Event Model，一下简称NB-MBEM）。

首先，NB-MEM改变了特征向量的表示方法。在 NB-MBEM中，特征向量的每个分量代表词典中该index上的词语是否在文本中出现过，其取值范围为{0,1}，特征向量的长度为词典的大小。而在 NB-MEM中，特征向量中的每个分量的值是文本中处于该分量的位置的词语在词典中的索引，其取值范围是{1,2,...,|V|}，|V|是词典的大小，特征向量的长度为相应样例文本中词语的数目。

形式化表示为：

m个训练样本表示为：{x(i),y(i);i=1,...,m}

x(i)=(x1(i),x2(i),...,xni(i))

表示第i个样本中，共有ni个词，每个词在字典的编号xj(i)。

举例来说，在NB-MBEM中，一篇文档的特征向量可能如下所示：

其在NB-MEM中的向量表示则如下所示：

在NB-MEM中，假设文本的生成过程如下：

1、确定文本的类别，比如是否为垃圾文本、是财经类还是教育类；

2、遍历文本的各个位置，以相同的多项式分布生成各个词语，生成词语时相互独立。

由上面的生成过程可知，NB-MEM假设文本类别服从多项式分布或伯努利分布，而词典中所有的词语服从多项式分布。生成过程还可如下解释，即现在类别所服从的多项式分布中选取类别，然后遍历整个文本，在词语所服从的多项式分布中选取词语，放在文本中相应的位置上。

于是，NB-MEM的参数如下所示：

于是，我们可以得到参数在训练集上的极大似然估计：

极大化似然估计函数，可以得到各个参数的极大似然估计：

在φk|y=1和φk|y=0
上使用Laplace平滑，得到公式如下：

其中，|V|为词典的大小。

与以前的式子相比，分母多了个ni,分子由0/1变成了k。

对于式子

分子的意思是对所有标签为1的邮件求和，即只考虑垃圾邮件，之后对垃圾邮件中的所有词求和，它加起来应该是词k出现在垃圾邮件中的次数。

换句话说，分子实际上就是对训练集合中的所有垃圾邮件中词k出现的次数进行求和。

分母的含义是对训练样本集合进行求和，如果其中的一个样本是垃圾邮件（y=1），那么就把它的长度加起来，所以分母的含义是训练集合中所有垃圾邮件的总长。

所以这个比值的含义就是在所有垃圾邮件中，词k所占的比例。

举个例子：

假如邮件中只有a,b,c这三个词，他们在词典的位置分别是1,2,3，前两封邮件都只有两个词，后两封有3个词。

Y=1是垃圾邮件。

那么，

假如新来一封邮件为b,c，那么特征表示为{2,3}

那么

那么该邮件是垃圾邮件概率是0.6。

注意这个公式与朴素贝叶斯的不同在于这里针对整体样本求的φk|y=1
，而朴素贝叶斯里面针对每个特征求的φxj=1|y=1
，而且这里的特征值维度是参差不齐的。

（二）神经网络

之前介绍的无论是感知器算法还是逻辑回归还是刚才所介绍的朴素贝叶斯模型（朴素贝叶斯算法是前置假设是多项式分布的多项式模型，所以也属于逻辑回归模型），其最终结果反映在数据上都是一条直线或一个超平面，但如果数据并不是线性可分的话，这些模型的性能会变差。针对该问题，涌现出很多对非线性可分数据进行分类的算法，神经网络是其中最早出现的一种。

对于逻辑回归模型，可以将其表示为下图所示：

其中，xi是输入的特征向量的各个分量，sigmoid是计算单元，output是函数输出。sigmoid计算单元有参数θ，其函数形式为：

而神经网络则是将这样的计算单元组合起来，如下图所示：

其中，a1,a2,a3是中间单元的输出。可以看到，该图所示的神经网络有四个参数，分别为四个sigmoid单元的参数。这些参数之间的关系如下式所述：

学习这些参数需要用到成本函数比如：

这是第一次视频里就提到的二次成本函数（quadratic cost
function），可以使用梯度下降方法最小化成本函数来求得参数，在神经网络中的梯度下降算法有一个专门的名称叫做反向传播算法。

在上面那个神经网络的样例图中，与输入直接相连的称为隐藏层（hidden
layer），与输出直接项链的称为输出层（output
layer）。神经网络算法的一大特点就在于不知道隐藏层计算的东西的意义，另一个特点在于神经网络有比较多的局部最优值，可以通过多次随机设定初始值然后运行梯度下降算法获得最优值。

接着，展示了两个神经网络实现的应用的视频。一个是Hammerton数字识别应用，对手写的数字进行识别，该应用的作者是Yann
LeCun，他以字符识别与卷积神经网络而著名。另外一个应用则是NETtalk神经网络，使用神经网络来阅读文本，作者是Terry
J.Sejnowski。

（三）支持向量机之函数间隔与几何间隔

要理解支持向量机（support Vector
Machine），必须先了解函数间隔与几何间隔。一下假设数据集是线性可分的。

首先变换一下符号，类别y可取值由{0,1}变为{-1,1}，假设函数g为：

而目标函数h也由：
变为：
其中，公式15中x，θ εRn+1
，且x0=1。而在公式16中，x，ω εRn
，b取代了公式15中x0的作用。

由公式16，我们得知，ω，b可以唯一的确定一个超平面。

一个点(x(i),y(i))到由ω，b决定的超平面的函数间隔是：

超平面与整个训练集合的函数间隔是：

公式17还有一个性质，即对于正确分类的数据点，函数间隔不小于0。

函数间隔的问题在于只要成倍增大ω，b，就能使函数间隔变大。为了解决这个问题，就有了几何间隔的定义，几何间隔定义如下：

即在||ω||=1条件下函数间隔最小值。

几何间隔与函数间隔的意义在于为根据训练集合得到的模型增添了一个指标，使得模型不仅保证分类结果的正确性，更要进一步保证分类结果的确定性。

Stanford大学机器学习公开课（六）：朴素贝叶斯多项式模型、神经网络、SVM初步的更多相关文章

Andrew Ng机器学习公开课笔记 -- 朴素贝叶斯算法
网易公开课,第5,6课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 前面讨论了高斯判别分析,是一种生成学习算法,其中x是连续值这里要 ...
Stanford大学机器学习公开课（五）：生成学习算法、高斯判别、朴素贝叶斯
(一)生成学习算法在线性回归和Logistic回归这种类型的学习算法中我们探讨的模型都是p(y|x;θ),即给定x的情况探讨y的条件概率分布.如二分类问题,不管是感知器算法还是逻辑回归算法,都是在解 ...
Stanford大学机器学习公开课（四）：牛顿法、指数分布族、广义线性模型
(一)牛顿法解最大似然估计牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x), ...
Stanford大学机器学习公开课（三）：局部加权回归、最小二乘的概率解释、逻辑回归、感知器算法
(一)局部加权回归通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting).如下图的左图.而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为 ...
Stanford大学机器学习公开课（二）：监督学习应用与梯度下降
本课内容: 1.线性回归 2.梯度下降 3.正规方程组监督学习:告诉算法每个样本的正确答案,学习后的算法对新的输入也能输入正确的答案 1.线性回归问题引入:假设有一房屋销售的数据如下: 引 ...
LR 算法总结--斯坦福大学机器学习公开课学习笔记
在有监督学习里面有几个逻辑上的重要组成部件[3],初略地分可以分为:模型,参数和目标函数.(此部分转自 XGBoost 与 Boosted Tree) 一.模型和参数模型指给定输入xi如何去 ...
【机器学习】文本分类——朴素贝叶斯Bayes
朴素贝叶斯主要用于文本分类.文本分类常见三大算法:KNN.朴素贝叶斯.支持向量机SVM. 一.贝叶斯定理贝叶斯公式思想:利用已知值来估计未知概率.已知某条件概率,如何得到两个事件交换后的概率,也就是 ...
机器学习算法实践：朴素贝叶斯 (Naive Bayes)（转载）
前言上一篇<机器学习算法实践:决策树 (Decision Tree)>总结了决策树的实现,本文中我将一步步实现一个朴素贝叶斯分类器,并采用SMS垃圾短信语料库中的数据进行模型训练,对垃圾 ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...

随机推荐

TOMOYO Linux(undone)
目录 . TOMOYO Introduction . TOMOYO Sourcecode Analysis 1. Introduction TOMOYO是一款基于LSM Framework实现的LSM ...
windows进程/线程创建过程 --- windows操作系统学习
有了之前的对进程和线程对象的学习的铺垫后,我们现在可以开始学习windows下的进程创建过程了,我将尝试着从源代码的层次来分析在windows下创建一个进程都要涉及到哪些步骤,都要涉及到哪些数据结构. ...
myeclipse 部署应用
昨天把MyEclipse10给安装上了,今天想在MyEclipse下启动Tomcat并在浏览器中看到写的Web页面,但是当在浏览器中输入地址时,出现了404错误,出现这个错误的原因是因为没有找到指定的 ...
jquery------导入jquery UI要使用的文件
JQuery版本下载地址:http://jquery.com/download/ JQuer UI两个主要下载地址:http://jqueryui.com/download/ 只需要里面的jquer ...
tcpdump wireshark 实用过滤表达式（针对ip、协议、端口、长度和内容）实例介绍
tcpdump wireshark 实用过滤表达式(针对ip.协议.端口.长度和内容) 实例介绍标签: 网络tcpdst工具windowslinux 2012-05-15 18:12 3777人阅读 ...
ID
id 编辑身份标识号.账号.唯一编码.专属号码.工业设计.国家简称.法律词汇.通用账户.译码器.软件公司等,各类专有词汇缩写. 身份证,身份识别,是一种身份证明. 中文名身份证,帐号,工业设计,通 ...
LINUX中，Vi编辑器的几种模式及保存、退出等命令
vi编辑器有三种模式: 命令模式,编辑模式,末行模式打开vi后首先是命令模式,用i,o,a等进入编辑模式,按esc退出编辑模式,回到命令模式. 在命令模式下输入:wq表示保存退出,:wq!强制保存退 ...
wordpress自定义后台用户联系方式添加qq、微博、微信
在 WordPress 后台,个人设置(Profile)中,可以设置电子邮件和 Website,如何添加国人常用的 QQ, 微博,微信呢? <?php /* Plugin Name: Custo ...
CSS简写指南
高效的css写法中的一条就是使用简写.通过简写可以让你的CSS文件更小,更易读.而了解CSS属性简写也是前端开发工程师的基本功之一.今天我们系统地总结一下CSS属性的缩写. 色彩缩写色彩的缩写最简单 ...
微信公众平台开发（十）消息回复总结——用其xml模板
一.简介微信公众平台提供了三种消息回复的格式,即文本回复.音乐回复和图文回复,在这一篇文章中,我们将对这三种消息回复的格式做一下简单讲解,然后封装成函数,以供读者使用. 二.思路分析对于每一个PO ...

Stanford大学机器学习公开课（六）：朴素贝叶斯多项式模型、神经网络、SVM初步

Stanford大学机器学习公开课（六）：朴素贝叶斯多项式模型、神经网络、SVM初步的更多相关文章

随机推荐

热门专题