机器学习算法原理、实现与实践 —— 感知机

感知机（perceptron）是二分类的线性分类模型，输入为特征向量，输出为实例的类别，取值+1和-1。感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，引入了基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。

1. 感知机模型

假设输入空间（特征空间）是$\mathcal{X}\subset R^n$，输出空间是$\mathcal{Y}=\{-1,+1\}$。输入$x\in\mathcal{X}$表示实例的特征向量，对就于输入空间的点；输出$y\in\mathcal{Y}$表示实例的类别。由输入空间到输出空间的映射函数

$$f(x) = sign(w\cdot x+b)$$

称为感知机。其中，$w$和$b$为感知机的模型参数，$w\in R^n$叫作权值或权值向量，$b\in R$叫作偏置。$w\cdot x$表示内积。$sign$是符号函数，即

$$sign(x） = \begin{cases}+1, & x\ge0 \\ -1,& x < 0 \end{cases}$$

感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合$\{f|f(x) = w\cdot x+b\}$。

感知机有如下几何解释：线性方程

$$w\cdot x+b = 0$$

对应于特征空间$R^n$中的一个超平面S，其他$w$是超平面的法向量，$b$是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点（特征向量）分别被分为正、负两类。因此，超平面S称为分离超平面（separating hyperplane）。

感知机学习的任务可以描述为：由训练数据集（实例的特征向量及类别）

$$T={(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)}$$

其中$x_i\in\mathcal{X}=R^n,\ y_i\in\mathcal{Y}=\{-1,+1\},\ i=1,2,\dots,N$，求得感知机模型，即求得模型参数$w,b$。感知机预测，通过学习到的感知机模型，对于新的输入实例给出其对应的输出类别。

2. 感知机的学习策略

假设训练数据集是线性可分的，感知机学习的目标就是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。为了找出这样的超平面，即确定感知机的模型模型参数$w,b$，需要确定一个学习策略，即定义（经验）损失函数并将损失函数极小化。

损失函数的一个自然选择是误分类点的总数。但是，这样的损失函数不是参数$w,b$的连续可导函数，不易优化。损失函数的另一个选择是误分类点到超平面S的总距离，这是感知机所采用的。为此，首先写出输入空间$R^n$中任一点$x_0$到超平面S的距离。

$$\frac{1}{||w||}|w\cdot x_i +b|$$

这里，$||w||$是$w$的$L_2$范数。

其次，对于误分类的数据$(x_i,y_i)$来说

$$-y_i(w\cdot x_i +b) > 0$$

成立。所以误分类点$x_i$到超平面S的距离转化为

$$ - \frac{1}{||w||}y_i(w\cdot x_i +b)$$

这样，假设超平面S的误分类点集合为$M$，那么所有误分类点到超平面S的总距离为

$$- \frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i +b)$$

忽略前面的系数$1/||w||$，就得到感知机学习的损失函数。

给定训练数据集

$$T={(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)}$$

其中$x_i\in\mathcal{X}=R^n,\ y_i\in\mathcal{Y}=\{-1,+1\},\ i=1,2,\dots,N$。感知机$sign(w\cdot x +b)$学习的损失函数定义为

$$L(w,b) = -\sum_{x_i\in M}y_i(w\cdot x_i + b)$$

其中$M$为误分类点的集合。这个损失函数就是感知机学习的经验风险函数。感知机学习的策略就是在假设空间中选择使损失函数$L(w,b)$最小的模型参数。

3. 感知机学习算法

感知机学习问题转化为求解损失函数最优化问题，最优化的方法是随机梯度下降法。

感知机学习算法是误分类驱动的，具体采用随机梯度下降算法（stochastic gradient descent）。首先，任意选择一个超平面$w_0,b_0$，然后用梯度下降法不断地极小化目标函数。极小化过程中不是一次使$M$中所有误分类点的梯度下降，而是一次随机选择一个误分类点使其梯度下降。

假设误分类点集合$M$是固定的，那么损失函数$L(w,b)$的梯度由

$$\nabla_w L(w,b) = - \sum_{x_i\in M}y_i x_i$$

$$\nabla_bL(w,b) = -\sum_{x_i \in M}y_i$$

给出。

随机选择一个误分类点$(x_i,y_i)$，对$w,b$进行更新：

$$w \gets w+ \eta y_i x_i$$

$$b \gets b+\eta y_i$$

式中$\eta(0<\eta\le 1)$是步长，在机器学习中又称为学习率。这样通过迭代可以期待损失函数$L(w,b)$不断减小，直到为0.

这种学习算法直观上有如下解释:当一个实例点被误分类，即位于分离超平面的错误一侧时，则调整$w,b$的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面之间的距离，直到超平面越过该误分类点使其被正确分类。

4. 感知机学习算法的收敛性

（Novikoff）定理设训练数据集为$T={(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)}$，其中$x_i\in\mathcal{X}=R^n,\ y_i\in\mathcal{Y}=\{-1,+1\},\ i=1,2,\dots,N$，则

1）存在满足条件$||\hat{w}_{opt}|| = 1$的超平面$\hat{w}_{opt}\cdot \hat{x} = w_{opt}\cdot x + b_{opt} = 0$将训练数据集完全正确分开；且存在$\gamma>0$，对所有的$i=1,2,\dots,N$

$$y_i(\hat{w}_{opt}\cdot \hat{x}_i = y_i(w_{opt}\cdot x_i + b_{opt}) \ge \gamma$$

2）令$R = \max_{1\le i\le N}||\hat{x}_i||$，则感知机算法在训练数据集上的误分类次数$k$满足不等式

$$k \le \left(\frac{R}{\gamma}\right)^2$$

定理表明，误分类的次数$k$是有上界的，经过有限次搜索可以找到将训练数据完全正确分开的分离超平面。但是，感知机学习算法存在许多解，这些解既依赖于初值的选择，也依赖于迭代过程中误分类点的选择顺序。为了得到唯一的超平面，需要对分离超平面增加约束条件。

ML 06、感知机的更多相关文章

[OpenCV] Samples 06: [ML] logistic regression
logistic regression,这个算法只能解决简单的线性二分类,在众多的机器学习分类算法中并不出众,但它能被改进为多分类,并换了另外一个名字softmax, 这可是深度学习中响当当的分类算法 ...
ML（2）--感知机
案例银行办信用卡--获得感知机我们到银行办信用卡时,银行并不是直接就给你办卡的,而是会根据你的一些个人信息.消费信息.个人信誉等指标综合考虑后,才会决定是否给你办卡(不像现在银行办信用卡有点随意). ...
ML 感知机（Perceptrons）
感知机 Perceptrons 学习Hinton神经网络公开课的学习笔记 https://class.coursera.org/neuralnets-2012-001 1 感知机历史在19世纪60年 ...
[ML] I'm back for Machine Learning
Hi, Long time no see. Briefly, I plan to step into this new area, data analysis. In the past few yea ...
ML面试1000题系列（1-20）
本文总结ML面试常见的问题集转载来源:https://blog.csdn.net/v_july_v/article/details/78121924 1.简要介绍SVM 全称是support vec ...
lecture2-NN结构的主要类型的概述和感知机
Hinton课程第二课一.NN结构的主要类型的概述这里的结构就是连接在一起的神经元.目前来说,在实际应用中最常见的NN就是前向NN,他是将数据传递给输入单元,通过隐藏层最后到输出层的单元:一个更有 ...
22----2013.06.29---HTML--html介绍.超链接和图片,表格,表单,表单标签,meta,复习当天内容
01 HTML HTML :Hypertext Markup Language 超文本标记语言(类似于裸奔的人.) 作用:向用户展示信息. CSS: Cascading 层叠样式表(类似于人的 ...
利用Python实现一个感知机学习算法
本文主要参考英文教材Python Machine Learning第二章.pdf文档下载链接: https://pan.baidu.com/s/1nuS07Qp 密码: gcb9. 本文主要内容包括利 ...
诗人般的机器学习，ML工作原理大揭秘
诗人般的机器学习,ML工作原理大揭秘 https://mp.weixin.qq.com/s/7N96aPAM_M6t0rV0yMLKbg 选自arXiv 作者:Cassie Kozyrkov 机器之心 ...

随机推荐

【leetcode】Find Peak Element
Find Peak Element A peak element is an element that is greater than its neighbors. Given an input ar ...
ios bitcode 机制对 dsym 调试文件的影响
今天想试试用dsym和crash文件跟踪crash信息,可是一直返回如下信息: Thread name: Dispatch queue: com.apple.main-thread Thread Cr ...
2.nodejs权威指南--Buffer
1. Buffer 1.1 创建 var buf1 = new Buffer(100); var buf2 = new Buffer([0,1,2]); var buf3 = new Buffer(' ...
linux 卸载软件
sudo apt-get autoremove --purge 后跟要卸载的软件名称, --purge表示要完全卸载.
【linux】学习7
鸟哥 22章内容单个源代码编译运行设有一个hello.c 可以用下面方式运行生成可执行文件a.out [localhost scripts]$ gcc hello.c [localhost sc ...
grep(Global Regular Expression Print)
.grep -iwr --color 'hellp' /home/weblogic/demo 或者 grep -iw --color 'hellp' /home/weblogic/demo/* (-i ...
Caffe初试（一）win7_64bit+VS2013+Opencv2.4.10+CUDA6.5配置Caffe环境
折腾了几天,终于在windows系统上成功配置了Caffe环境,期间遇到了很多问题,每个问题的解决也都花了不少时间,查过挺多资料,感觉挺有意义,这里写篇博客记录一下. 原来我使用的CUDA版本是7.5 ...
【转】深入Windows内核——C++中的消息机制
上节讲了消息的相关概念,本文将进一步聊聊C++中的消息机制. 从简单例子探析核心原理在讲之前,我们先看一个简单例子:创建一个窗口和两个按钮,用来控制窗口的背景颜色.其效果图1.效果图 Win32 ...
［转］c++ vector 遍历方式
挺有趣的,转来记录随着C++11标准的出现,C++标准添加了许多有用的特性,C++代码的写法也有比较多的变化. vector是经常要使用到的std组件,对于vector的遍历,本文罗列了若干种写 ...
css设置网页文本选中样式
网页的默认的文本选中颜色是蓝底白字(大多应该是吧),这个样子: 感觉并不是特别好看,可以通过CSS3的一个特性,一个CSS3的伪类选择器::selection来设置文本被选中时的状态,比如本博客的主题 ...

ML 06、感知机

机器学习算法 原理、实现与实践 —— 感知机