Andrew Ng机器学习课程6
Andrew Ng机器学习课程6
说明
在前面尾随者台大机器学习基石课程和机器学习技法课程的设置,对机器学习所涉及到的大部分的知识有了一个较为全面的了解,可是对于没有动手敲代码并加以使用的情况,基本上是不可能掌握好的。特别是我的学习进程是袭击式的,因此。会非常快忘掉。心中仅仅剩下一个主要的纲要,所以后面要通过解说更为具体的Andrew Ng教授的机器学习课程进行回想和总结,希望能够抓住它的来龙去脉。
所以总结的内容主要是推导的思路。仅仅要能够把握住思路,就能保持长久的记忆。
主要内容
朴素贝叶斯分类器
1. 垃圾邮件特征提取方法
通过垃圾邮件的筛选。介绍了朴素贝叶斯分类器。对于垃圾邮件,建立一个垃圾邮件中常常出现的词的字典。用于将一封邮件通过这个字典转换为特征向量,这个特征向量的长度等于字典中词的个数N=5000,且其每个位置上的值仅取“1”或“0”,表示相应位置上是否出现了垃圾词。
2. 朴素贝叶斯如果与朴素贝叶斯分类器
已经得到了特征矢量,我们要构建一个generative model。这里先说明一下先验概率与后验概率的含义:
先验概率是指基于先验知识所得到某一件事情发生或出现的概率。通常採用大数据统计就能够得到先验概率。比方罹患肝癌(y)的概率。通过统计医院的资料。能够计算出先验概率p(y)来。而后验概率则是指当某一件事情已经发生或出现。回推导致这件事情发生的因素的概率。
比方某人已经查出罹患肝癌(y),而导致肝癌发生的因素有x={酒精、多脂肪、病毒、毒素},即后验概率就是指p(x|y)。
然后再说明一下机器学习中两种不同的model:
discrimination model和generative model, 两者的区别在于对概率密度的建模上:以二分类问题为例。样本特征矢量为x,样本标签为y。y∈{−1,+1},discrimination model是直接对p(y|x)进行建模,相似logistic regression,思路就是从已知的样本集(x,y)中直接学习出给定x,输出y为1的概率是多少。等于说是直接构建以x为输入參数的y的概率模型。而generative model则是先分别对p(x|y=0)和p(x|y=1)进行建模。然后再通过后验概率公式(贝叶斯公式)计算得到:
p(y=1|x)=p(x|y=1)×p(y=1)p(x)p(y=0|x)=p(x|y=0)×p(y=0)p(x),这样就考虑了样本的产生模型p(y),同一时候除去分母是不影响推断的。所以实际上generative model是对联合概率密度进行的建模p(y,x)=p(x|y)×p(y)。而对于discrimination model则没有考虑样本的生成模型。或者说是觉得样本生成模型是均匀分布的。通常对于generative model要求样本无穷大或尽可能大,而discrimination model则不须要。
为了对p(x|y)进行建模,引入了一个非常强的如果,即如果给定y的情况下,xi是条件独立的。即每个xi之间是没有约束关系的。
这个如果叫做朴素贝叶斯如果(Naive Bayes assumption)。而这样得到的学习算法就叫做朴素贝叶斯分类器。
3. 垃圾邮件的朴素贝叶斯分类器
接着对垃圾邮件进行建模,有:
非常显然,建立的模型的參数为p(xi|y)和p(y)。
联合概率密度的似然函数为:
通过最大化联合似然函数。能够得到模型參数的最大似然预计。从而构建出例如以下模型:
选择具有最高后验概率的class作为判定依据。
Ng教授绘制了一种通常的情况用于说明通过典型的generative model :GDA(Gaussian Discrimination Analysis model)方法建立的两类后验概率,生成分类边界实际上与logistic regression的边界一样。
这说明了两种模型实际上是有共通之处的。就是上面说过的如果忽略了样本的产生模型p(y)两者基本上是相似的。
拉普拉斯平滑
在处理一些还没有出现或发生过的事件A时,如果採用上面那种联合似然函数预计出来的p(A)=0,这是不合理的,由于仅仅是在有限的训练集中没有看到这个事件发生。并不代表它一定不发生,即p(A)=0。这个时候採用laplace smoothing会有更好的预计效果。以预计一个多项随机变量z∈{1,2,...,k}的均值情况为例,多项分布的參数为ϕi=p(z=i),假定m个独立的观測值{z(1),...,z(m)}。非常简单地得到最大似然预计为:
如前面所讲,如果使用最大似然预计。非常有可能一些ϕi=p(z=i)会是0。
为了克服这个问题,使用laplace smoothing代替上面的预计:
laplace smoothing的效果就是使在观測值中没有出现的事件的概率预计保持一定的小概率出现,而不是直接认定概率为0。
事件模型
对于上面构建垃圾邮件分类器,实际上丢掉了一些信息,即没有考虑文本的上下文。
Naive Bayes採用multi-variable Bernoulli event model能够解决这种问题。
觉得邮件是这样产生的:首先依据先验概率p(y)随机生成邮件或垃圾邮件,然后发送邮件的人遍历这个垃圾邮件的字典,依据概率p(xi=1|y)=ϕi|y独立决定是否包括第i个word。所以。这个message的概率为:
而multinomial event model是一个不同的模型。将具有n个words的email表示为(xi)(n)。不同的邮件的words的长度n能够不同。xi表示的是这个email的第i个word是字典中的第x_i个word的索引index。所以message的概率为:
尽管multi-variable Bernoulli event model与multinomial event model得到的概率模型在公式上表现了同样,可是具体的含义却区别非常大,multinomial event model中的xi|y表示的是一个多项分布,而ulti-variable Bernoulli event model中的xi|y表示的是一个bernoulli分布。
神经网络模型
Ng教授通过两个视频的样例说明了神经网络模型的力量,一个是手写体的识别。还有一个是模拟小孩说话声音。都表现出了非常好的性能。神经网络是在logistic regression的基础上引入的,採用sigmoid函数作为激活函数。神经网络最大的缺点就是变量太多。导致非常easy陷入局部最优。神经网络的部分,能够參看我的其它博客文章神经网络模型的总结,有非常深入的介绍。
支持向量机的开篇
Ng教授对支撑向量机(support vector machine)是从线性可分问题入手的,介绍了如何的分类边界是好的。
对于logistic regression,当θTX远大于0时,就有非常大的confidence觉得y=+1,而当θTX远小于0时。就有非常大的confidence觉得y=−1。从而引入了两个margin,一个是function margin。还有一个是geometry margin。定义了点(xi,yi)到超平面(w,b)的距离作为function margin: function margin=y(i)(wTx+b),我们求取全部点到决策平面的距离中的最小值作为样本到决策平面的距离。剩下要做的就是maximize 这个margin。
样本是固定的。而决策超平面是不定的。是由參数(w,b)决定的。我们所要做的就是调整(w,b)。而如果參数同一时候放大时,这个margin也会放大,这样最大化就没意义了。所以,定义了geometric margins,约束||w||=1。从而得到了例如以下的公式化的优化问题:
2015-8-23
艺少
Andrew Ng机器学习课程6的更多相关文章
- Andrew Ng机器学习课程笔记(五)之应用机器学习的建议
Andrew Ng机器学习课程笔记(五)之 应用机器学习的建议 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...
- Andrew Ng机器学习课程笔记--week1(机器学习介绍及线性回归)
title: Andrew Ng机器学习课程笔记--week1(机器学习介绍及线性回归) tags: 机器学习, 学习笔记 grammar_cjkRuby: true --- 之前看过一遍,但是总是模 ...
- Andrew Ng机器学习课程笔记--汇总
笔记总结,各章节主要内容已总结在标题之中 Andrew Ng机器学习课程笔记–week1(机器学习简介&线性回归模型) Andrew Ng机器学习课程笔记--week2(多元线性回归& ...
- Andrew Ng机器学习课程笔记(六)之 机器学习系统的设计
Andrew Ng机器学习课程笔记(六)之 机器学习系统的设计 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7392408.h ...
- Andrew Ng机器学习课程笔记(四)之神经网络
Andrew Ng机器学习课程笔记(四)之神经网络 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言 ...
- Andrew Ng机器学习课程笔记(三)之正则化
Andrew Ng机器学习课程笔记(三)之正则化 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365475.html 前言 ...
- Andrew Ng机器学习课程笔记(二)之逻辑回归
Andrew Ng机器学习课程笔记(二)之逻辑回归 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364636.html 前言 ...
- Andrew Ng机器学习课程笔记(一)之线性回归
Andrew Ng机器学习课程笔记(一)之线性回归 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364598.html 前言 ...
- Andrew Ng机器学习课程10补充
Andrew Ng机器学习课程10补充 VC dimension 讲到了如果通过最小化训练误差,使用一个具有d个参数的hypothesis class进行学习,为了学习好,一般需要参数d的线性关系个训 ...
随机推荐
- 对数据访问层的重构(及重构中Perl的应用)
以前上学的时候,听到“一个学生在毕业后刚刚开始编程的头几年中,写出的代码多半是垃圾”这样的说法,均不屑一顾.现在工作一年多了,越发感觉自己代码中疏漏处甚多,故近来常做亡羊补牢的重构之举.拿自己4个月前 ...
- php(间接)调用nmap命令时的选项特殊点
使用php调用pythn-nmap时,发现无法正常执行扫描动作 将nmap命令直接写入php,由后者调用,发现仍然无法执行,提示需要添加“-Pn”选项 原来是: 正常情况下:nmap -n host ...
- 山东省第七届省赛 D题:Swiss-system tournament(归并排序)
Description A Swiss-system tournament is a tournament which uses a non-elimination format. The first ...
- python实用技巧 : Filtering os.walk(转)
''' Created on Mar 7, 2010 @author: Diego 需求: 得到某个目录下, 符合过滤条件的文件夹/文件.实现: 将os.walk再次包装. TODO: 不知道本程序的 ...
- mysql 保留点
例子如下: 在ticket表中先删除trainID=868的数据,设置一个保留点,然后插入一行数据,发现在插入数据插错了,这个时候我们的保留点就可以排上用场了,即rollback到保留点,而不是直接r ...
- 集训考试题tents
题目描述Pb 去郊游啦!他来到一块空地打算在这里搭一个帐篷.但是,帐篷的四个支撑点不能在落在任何位置上,而只能落在一些固定点上.现在,他找到地面上有 N 个点可以支撑帐篷.(四个支撑点必须围成一个矩形 ...
- leetcode122 Best Time to Buy and Sell Stock
题意:有一个数组,第i个数据代表的是第i天股票的价格,每天只能先卖出再买进(可以不卖出也可以不买进),求最大收益. 思路:自己去弄几个数组比划比划就知道了,比如[1,2,5,3,6],第一天买进,第二 ...
- conversion function to_char to_number
SELECT )||']', ,'9,999.999')||']', ,'99,999.999')||']', ,'fm99,999.999')||']', '['|| to_char(0.25)|| ...
- 2014 非常好用的开源 Android 测试工具
http://www.php100.com/html/it/mobile/2014/1015/7495.html 当前有很大的趋势是转向移动应用平台,Android 是最广泛使用的移动操作系统,201 ...
- [九省联考2018]林克卡特树(DP+wqs二分)
对于k=0和k=1的点,可以直接求树的直径. 然后对于60分,有一个重要的转化:就是求在树中找出k+1条点不相交的链后的最大连续边权和. 这个DP就好.$O(nk^2)$ 然后我们完全不可以想到,将b ...