CS229 笔记08
CS229 笔记08
Kernel
回顾之前的优化问题
原始问题为:
\[
\min_{w,b} \frac{1}{2}||w||^2\\[1.5em]
{\text{s.t.}}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
\]原始问题的对偶问题为:
\[
\max_{\alpha}\left\{ \sum_{i=1}^m \alpha_i - \frac{1}{2} \sum_{i,j}^m y{(i)} y^{(j)}\alpha_i \alpha_j \left\langle x^{(i)}, x^{(j)} \right\rangle \right\}\\[2em]
\begin{eqnarray*}
{\text{s.t. }}\alpha_i&\geq&0\\[1em]
\sum_{i=0}^my^{(i)}\alpha_i&=&0
\end{eqnarray*}
\]求解出对偶问题得到 \(\alpha_i\) 后,代入以下等式可求出 \(w\) :
\[
w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}
\]模型训练完成之后的预测函数 \(h_{w,b}(x)\) 为:
\[
\begin{eqnarray*}
h_{w,b}(x)&=&g(w^{\rm T}x+b)\\[1em]
&=&g\left(\sum_{i=1}^m\alpha_iy^{(i)}\left\langle x^{(i)},x\right\rangle+b\right)
\end{eqnarray*}
\]Kernel(核函数)
之前讨论的分类问题都是假设训练样本数据是线性可分的,而若样本线性不可分,则需要将样本(向量)从低维空间映射到高维空间,因为在低维空间线性不可分的样本,很有可能在高维空间线性可分。
假设从低维空间到高维空间的映射为 \(\phi: {\Bbb R}^a \to {\Bbb R}^b\) ,其中 \(b>a\) ,那么在之前讨论中所有出现 \(\left\langle x^{(i)},x^{(j)} \right\rangle\) 内积的地方都可以替换成 \(\left\langle \phi\left(x^{(i)}\right),\phi\left(x^{(j)}\right) \right\rangle\) 。
这样替换会有两个问题,第一是如何找到这样的将向量从低维空间转化到高维空间的映射,第二是映射之后的向量的维数很大,甚至是无限维的,这样计算内积的效率很低。
如果可以不把高维的向量算出来,也能知道两个向量在高维空间中的内积(或者等同于内积的量),就方便很多了。而Kernel(核函数)在很多情况下就能达到这样的效果。
这种思想的目标是,找到这样的函数 \(K\) ,使得:
\[
K(x^{(i)},x^{(j)})=\left\langle \phi\left(x^{(i)}\right),\phi\left(x^{(j)}\right) \right\rangle
\]一些常见的核函数
多项式核函数,映射之后的向量维数为组合数 \(C(n+d,d)\) :
\[
K(x,z)=\left(x^{\rm T}z+c\right)^d
\]高斯核函数(径向基函数核,Radial basis function kernel,RBF核),映射后的向量维数是无穷大:
\[
K(x,z)=\exp\left(-\frac{||x-z||^2}{2\sigma^2}\right)
\]构造核函数的原则
对于内积的一个直观但不一定准确的理解是:若两个向量相似度高,即它们指向的方向大致相同,那么它们的内积将会很大;反之若两个向量相似度很小,那么内积会很小。
对于一个新的问题,在其中的两个向量内积的表示,可以用多项式核函数,可以用高斯核函数,也可以另外构造一个函数,至于如何选择,则需要考察一下核函数的合法性。判断一个核函数 \(K\) 是否合法,也就是判断是否存在一个映射 \(\phi\) ,使得 \(K(x,z)=\left\langle\phi(x),\phi(z)\right\rangle\) 。
下面给出一个函数 \(K\) 是一个合法的核函数的充要条件,在此之前需要定义一些记号:
设原始向量为:
\[
x^{(1)},x^{(2)},\cdots,x^{(m)}
\]存在一个函数 \(K\) ,令一个矩阵 \(K \in {\Bbb R}^{m\times m}\) (这里两个概念用了相同的字母表示):
\[
K_{ij}=K(x^{(i)},x^{(j)})
\]那么函数 \(K\) 是一个合法的核函数的充要条件是:矩阵 \(K\) 是一个半正定矩阵。
必要性证明:
已知函数 \(K\) 是一个合法的核函数,那么存在映射 \(\phi\) ,使得 \(K(x,z)=\left\langle\phi(x),\phi(z)\right\rangle\) 。
对于任意的 \(z\in {\Bbb R}^{m}\) :
\[
\begin{eqnarray*}
z^{\rm T}Kz&=&\sum_{i=1}^m\sum_{j=1}^mz_iK_{ij}z_j\\[1em]
&=&\sum_{i=1}^m\sum_{j=1}^mz_iK(x^{(i)},x^{(j)})z_j\\[1em]
&=&\sum_{i=1}^m\sum_{j=1}^mz_i \left\langle\phi(x^{(i)}),\phi(x^{(j)})\right\rangle z_j\\[1em]
&=&\sum_{i=1}^m\sum_{j=1}^mz_i \left(\phi(x^{(i)})\right)^{\rm T}\phi(x^{(j)}) z_j\\[1em]
&=&\sum_{i=1}^m\sum_{j=1}^mz_i \left(\sum_{k=1}^{n}\phi(x^{(i)})_k\phi(x^{(j)})_k\right) z_j\\[1em]
&=&\sum_{k=1}^{n}\sum_{i=1}^m\sum_{j=1}^m z_i \phi(x^{(i)})_k\phi(x^{(j)})_k z_j\\[1em]
&=&\sum_{k=1}^{n}\left(\sum_{i=1}^mz_i \phi(x^{(i)})_k\right)\left(\sum_{j=1}^m z_j\phi(x^{(j)})_k\right)\\[1em]
&=&\sum_{k=1}^{n}\left(\sum_{i=1}^mz_i \phi(x^{(i)})_k\right)^2\\[1em]
&\geq&0
\end{eqnarray*}
\]将核函数应用到SVM问题中
要将核函数应用到SVM问题中,只需要将对偶问题中出现的内积变成核函数值,这样就达到了将原始向量从低维空间映射到高维空间的目的。
Soft Margin
Soft Margin SVM(软间隔SVM)
在很多情况下,训练样本并不一定是线性可分的,即使映射到无限维空间中也是这样。其中的原因可能是因为噪声,也可能是数据本身的性质就是如此。同时,即使数据能够线性可分,我们在大多数情况下也不希望其中的少量噪声影响我们超平面最终的选择,所以有必要提出一种 Soft Margin SVM(软间隔SVM)。
再回忆一下 SVM 的原始问题:
\[
\min_{w,b} \frac{1}{2}||w||^2\\[1.5em]
{\text{s.t.}}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1
\]现在将原始问题进行改造:
\[
\min_{w,b,\xi} \frac{1}{2}||w||^2+C\sum_{i=1}^{m}\xi_i\\[1.5em]
{\text{s.t.}}y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq1-\xi_i\\[1.5em]
\xi_i\geq0
\]有之前的讨论可知,当 \(y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)\geq0\) 时,表示分类结果正确。
现在不等式右边变成了 \(1-\xi_i\) ,表示某些 \(\xi_i\) 的取值可以让不等式的右面小于0,即可以容忍某一些样本的分类结果是错误的。
但是这样的容忍并不值得鼓励,所以需要在目标优化函数上面加上相应的惩罚项 \(C\sum_{i=1}^{m}\xi_i\) 。
所以原始的最优化问题就转化成了一个新的最优化问题,这也是一个凸优化问题,这个问题也可以推导出它的对偶问题。
拉格朗日算子为:
\[
{\mathcal L}(w,b,\xi,\alpha,r)=\frac{1}{2}\left\|w\right\|^2+C\sum_{i=1}^{m}\xi_i-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1+\xi_i\right]-\sum_{i=1}^mr_i\xi_i
\]对偶问题为:
\[
\max_{w,b,\xi} {\mathcal L}(w,b,\xi,\alpha,r)
\]对 \(w\) 求导:
\[
\begin{eqnarray*}
\frac{\partial}{\partial w}{\mathcal L}(w,b,\xi,\alpha,r)&=&\frac{\partial}{\partial w}\left\{\frac{1}{2}\left\|w\right\|^2+C\sum_{i=1}^{m}\xi_i-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1+\xi_i\right]-\sum_{i=1}^mr_i\xi_i\right\}\\[1em]
&=&w-\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\xlongequal{set}0\\[1em]
\therefore\,w&=&\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}
\end{eqnarray*}
\]对 \(b\) 求导:
\[
\begin{eqnarray*}
\frac{\partial}{\partial b}{\mathcal L}(w,b,\xi,\alpha,r)&=&\frac{\partial}{\partial b}\left\{\frac{1}{2}\left\|w\right\|^2+C\sum_{i=1}^{m}\xi_i-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1+\xi_i\right]-\sum_{i=1}^mr_i\xi_i\right\}\\[1em]
&=&-\sum_{i=1}^m\alpha_iy^{(i)}\xlongequal{set}0\\[1em]
\therefore\,\sum_{i=1}^m\alpha_iy^{(i)}&=&0
\end{eqnarray*}
\]对 \(\xi_i\) 求导:
\[
\begin{eqnarray*}
\frac{\partial}{\partial \xi_i}{\mathcal L}(w,b,\xi,\alpha,r)&=&\frac{\partial}{\partial \xi_i}\left\{\frac{1}{2}\left\|w\right\|^2+C\sum_{i=1}^{m}\xi_i-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^{\rm T}x^{(i)}+b\right)-1+\xi_i\right]-\sum_{i=1}^mr_i\xi_i\right\}\\[1em]
&=&C-\alpha_i-r_i\xlongequal{set}0\\[1em]
\therefore\,\alpha_i&=&C-r_i\\[1em]
\because\, r_i &\geq& 0\\[1em]
\therefore\, \alpha_i&\leq&C
\end{eqnarray*}
\]最终得到的对偶问题为:
\[
\begin{eqnarray*}
&&\max_{w,b}{\mathcal L}(w,b,\alpha)\\[1em]
&=&\max_{w,b}\left\{\sum_{i=1}^m\alpha_i-\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)\right\}\\[1em]
&=&\max_{w,b}W(\alpha)\\[1em]
{\text{s.t. }}&&0\leq\alpha_i\leq C\\[1em]
&&\sum_{i=1}^m\alpha_iy^{(i)}=0\\[1em]
\end{eqnarray*}
\]
SMO Algorithm
Coordinate Ascent Algorithm (坐标上升法)
对于一个优化问题:
\[
\max W(\alpha_1,\alpha_2,\cdots,\alpha_m)
\]选择其中一个参数,固定其它的参数,改变这个参数使得函数取得最优值,即:
\[
\begin{eqnarray*}
&&{\text{Repeat \{ }} \\
&&\,\,\,\,\,\,\,\,{\text{For i=0 to m}}\\
&&\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\alpha_i:=\arg\max_{\hat\alpha_i} W(\alpha_1,\alpha_2,\cdots,\alpha_{i-1},\hat\alpha_{i},\alpha_{i+1},\cdots,\alpha_m)\\
&&{\text{\}}}
\end{eqnarray*}
\]这就是坐标上升法。
Sequential Minimal Optimization ( SMO ) Algorithm
考虑直接使用坐标上升法来解决 SVM 的对偶问题,由于约束 \(\sum_{i=1}^m\alpha_iy^{(i)}=0\) 的存在,若每次只改变一个参数 \(\alpha_i\) 且固定其它参数,那么这个参数也无法改变,因为要满足限制条件。
序列最小优化(SMO)算法可以用来求解以上的对偶最优化问题,它的主要思想是一次性改变数量尽可能少的参数。在这个问题中,可以是一次改变两个参数。
所以使用SMO算法来解决SVM的对偶问题的大致步骤为:利用一些启发式的方法,选择两个参数 \(\alpha_i\) 和 \(\alpha_j\) ,固定其它的参数,改变 \(\alpha_i\) 和 \(\alpha_j\) 使得 \(W\) 最优化,同时要满足其它的约束。重复这个步骤,直到满足收敛条件。
现在的问题就是如何在满足其它约束的前提下,改变 \(\alpha_i\) 和 \(\alpha_j\) 使得 \(W\) 最优化。
我们现在要优化的目标函数是:
\[
W(\alpha_1,\alpha_2,\cdots,\alpha_m)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\left(\sum_{i,j}^m\alpha_i\alpha_jy^{(i)}y^{(j)}\left\langle x^{(i)},x^{(j)}\right\rangle\right)
\]由于其中一个约束条件是: \(\sum_{i=1}^m\alpha_iy^{(i)}=0\) ,对于任选的两个参数 \(\alpha_i\) 和 \(\alpha_j\) ,在其它参数固定的情况下,可以用 \(\alpha_j\) 来表示 \(\alpha_i\) :
\[
\alpha_i=-\frac{1}{y^{(i)}}\left(y^{(j)}\alpha_j+\sum_{k\neq i,k\neq j}^my^{(k)}\alpha_k\right)
\]如此一来函数 \(W\) 就变成了 \(\alpha_j\) 的二次函数(因为其它参数固定了,且 \(\alpha_i\) 被 \(\alpha_j\) 表示了),二次函数一定可以写成 \(W=W(\alpha_j)=A\alpha_j^2+B\alpha_j+C\) 的形式。
总结起来,只需要在以下条件中找到最优值即可:
\[
\alpha_i=-\frac{1}{y^{(i)}}\left(y^{(j)}\alpha_j+\sum_{k\neq i,k\neq j}^my^{(k)}\alpha_k\right)\\[2em]
W=W(\alpha_j)=A\alpha_j^2+B\alpha_j+C \\[1.5em]
0\leq\alpha_i\leq C\\[1.5em]
0\leq\alpha_i\leq C\\[1.5em]
\]在这组约束中可以求出最优的 \(\alpha_j\) ,进而可以求出 \(\alpha_i\) ,更新 \(\alpha_i\) 和 \(\alpha_j\) ,继续按照一定策略寻找下一组可变参数,重复这个步骤,直到满足某个收敛条件。
CS229 笔记08的更多相关文章
- JAVA自学笔记08
JAVA自学笔记08 1.构造方法私有,外界就不能再创建对象 2.说明书的制作过程 1)写一个工具类,在同一文件夹下,测试类需要用到工具类,系统将自动编译工具类:工具类的成员方法一般是静态的,因此在测 ...
- 机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集 关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
- CS229 笔记07
CS229 笔记07 Optimal Margin Classifier 回顾SVM \[ \begin{eqnarray*} h_{w,b}&=&g(w^{\rm T}x+b)\\[ ...
- CS229 笔记06
CS229 笔记06 朴素贝叶斯 事件模型 事件模型与普通的朴素贝叶斯算法不同的是,在事件模型中,假设文本词典一共有 \(k\) 个词,训练集一共有 \(m\) 封邮件,第 \(i\) 封邮件的词的个 ...
- CS229 笔记05
CS229 笔记05 生成学习方法 判别学习方法的主要思想是假设属于不同target的样本,服从不同的分布. 例如 \(P(x|y=0) \sim {\scr N}(\mu_1,\sigma_1^2) ...
- CS229 笔记04
CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarr ...
- CS229 笔记03
CS229 笔记03 局部加权线性回归 Non-Parametric Learning Algorithm (非参数学习方法) Number of parameters grows with the ...
- CS229 笔记02
CS229 笔记02 公式推导 $ {\text {For simplicity, Let }} A, B, C \in {\Bbb {R}}^{n \times n}. $ $ {\bf {\t ...
- C++ GUI Qt4学习笔记08
C++ GUI Qt4学习笔记08 qtc++signal图形引擎文档 本章介绍Qt的二维图形引擎,Qt的二维图形引擎是基于QPainter类的.<span style="colo ...
随机推荐
- Unity导入模型出现 (Avatar Rig Configuration mis-match. Bone length in configuration does not match position in animation)?
昨天遇到这两个模型导入的问题,查了一下资料,自己摸索了一下解决方法..总结一下~ 出现的原因:(问题1)Warning 当模型文件导入以后并且设置Animation Type是Generic的时候,动 ...
- MatCap冰冻效果Shader
MatCap方案 使用说明 制作合适的MatCap贴图 这张图决定冰像不像,网上找.Vray渲个球.ASE或者ShaderForge连,甚至直接手绘,总之只要一张长得像下面的图 注意MatCap图只有 ...
- PAT甲题题解-1122. Hamiltonian Cycle (25)-判断路径是否是哈密顿回路
博主欢迎转载,但请给出本文链接,我尊重你,你尊重我,谢谢~http://www.cnblogs.com/chenxiwenruo/p/6789799.html特别不喜欢那些随便转载别人的原创文章又不给 ...
- Notes of Daily Scrum Meeting(12.17)
我们会尽量安排好时间,在其他作业不受影响的情况下加快项目的进度,在Deadline之前完成Beta阶段的工作. 今天的团队工作总结如下: 团队成员 今日团队工作 陈少杰 调试网络连接,补充后端代码 王 ...
- No.1110_第十一次团队会议
今天项目进展很多,第一轮迭代基本已经完成了,但是产品还没有发布,主要是因为大家还是太困了,所以再等一等明天再发布吧. 现在队员们急需补觉,因为最近实在是太辛苦了,很多人都没有休息好.现在已经基本完成了 ...
- 《Linux内核分析》第一周学习报告
第一周:计算机是如何工作的 姓名:王玮怡 学号:20135116 第一节 存储程序计算机工作模型(冯诺依曼体系结构) IP指向的内存地址,取指令执行,完成后,IP值自加一,取下一条指令再执行. AP ...
- UIO,大页内存,CPU亲和性,NUMA机制等
Linux环境下的UIO(Userspace I/O) UIO 用户空间下驱动程序的支持机制.DPDK使用UIO机制使网卡驱动程序运行在用户态,并采用轮询和零拷贝方式从网卡收取报文,提高收发报文的性能 ...
- 构建之法-软件测试+质量保障+稳定和发布阶段+IT行业的创新+人、绩效和职业道德
第十三章(软件测试) 要知道为什么有软件测试,首先需要知道软件开发,软件开发者一般都很难检查出自己的错误,所以才需要另外一个人测试,所以软件测试就诞生了. 书本介绍了很多测试方法,各有各的优缺点,至于 ...
- Office处理
1.NPOI:一个开源项目,不需要安装Microsoft Office,支持对Office 97-2003,2007文件格式,功能比较强大. http://npoi.codeplex.com/ 2.a ...
- DEP
DEP(Data execution protect)数据执行保护,这个功能需要操作系统和硬件的共同支持才可以生效.DEP的原理就是在系统的内存页中设置了一个标志位,标示这个内存页的属性(可执行). ...