机器学习算法原理、实现与实践 —— 感知机

感知机（perceptron）是二分类的线性分类模型，输入为特征向量，输出为实例的类别，取值+1和-1。感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，引入了基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。

1. 感知机模型

假设输入空间（特征空间）是$\mathcal{X}\subset R^n$，输出空间是$\mathcal{Y}=\{-1,+1\}$。输入$x\in\mathcal{X}$表示实例的特征向量，对就于输入空间的点；输出$y\in\mathcal{Y}$表示实例的类别。由输入空间到输出空间的映射函数

$$f(x) = sign(w\cdot x+b)$$

称为感知机。其中，$w$和$b$为感知机的模型参数，$w\in R^n$叫作权值或权值向量，$b\in R$叫作偏置。$w\cdot x$表示内积。$sign$是符号函数，即

$$sign(x） = \begin{cases}+1, & x\ge0 \\ -1,& x < 0 \end{cases}$$

感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合$\{f|f(x) = w\cdot x+b\}$。

感知机有如下几何解释：线性方程

$$w\cdot x+b = 0$$

对应于特征空间$R^n$中的一个超平面S，其他$w$是超平面的法向量，$b$是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点（特征向量）分别被分为正、负两类。因此，超平面S称为分离超平面（separating hyperplane）。

感知机学习的任务可以描述为：由训练数据集（实例的特征向量及类别）

$$T={(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)}$$

其中$x_i\in\mathcal{X}=R^n,\ y_i\in\mathcal{Y}=\{-1,+1\},\ i=1,2,\dots,N$，求得感知机模型，即求得模型参数$w,b$。感知机预测，通过学习到的感知机模型，对于新的输入实例给出其对应的输出类别。

2. 感知机的学习策略

假设训练数据集是线性可分的，感知机学习的目标就是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。为了找出这样的超平面，即确定感知机的模型模型参数$w,b$，需要确定一个学习策略，即定义（经验）损失函数并将损失函数极小化。

损失函数的一个自然选择是误分类点的总数。但是，这样的损失函数不是参数$w,b$的连续可导函数，不易优化。损失函数的另一个选择是误分类点到超平面S的总距离，这是感知机所采用的。为此，首先写出输入空间$R^n$中任一点$x_0$到超平面S的距离。

$$\frac{1}{||w||}|w\cdot x_i +b|$$

这里，$||w||$是$w$的$L_2$范数。

其次，对于误分类的数据$(x_i,y_i)$来说

$$-y_i(w\cdot x_i +b) > 0$$

成立。所以误分类点$x_i$到超平面S的距离转化为

$$ - \frac{1}{||w||}y_i(w\cdot x_i +b)$$

这样，假设超平面S的误分类点集合为$M$，那么所有误分类点到超平面S的总距离为

$$- \frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i +b)$$

忽略前面的系数$1/||w||$，就得到感知机学习的损失函数。

给定训练数据集

$$T={(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)}$$

其中$x_i\in\mathcal{X}=R^n,\ y_i\in\mathcal{Y}=\{-1,+1\},\ i=1,2,\dots,N$。感知机$sign(w\cdot x +b)$学习的损失函数定义为

$$L(w,b) = -\sum_{x_i\in M}y_i(w\cdot x_i + b)$$

其中$M$为误分类点的集合。这个损失函数就是感知机学习的经验风险函数。感知机学习的策略就是在假设空间中选择使损失函数$L(w,b)$最小的模型参数。

3. 感知机学习算法

感知机学习问题转化为求解损失函数最优化问题，最优化的方法是随机梯度下降法。

感知机学习算法是误分类驱动的，具体采用随机梯度下降算法（stochastic gradient descent）。首先，任意选择一个超平面$w_0,b_0$，然后用梯度下降法不断地极小化目标函数。极小化过程中不是一次使$M$中所有误分类点的梯度下降，而是一次随机选择一个误分类点使其梯度下降。

假设误分类点集合$M$是固定的，那么损失函数$L(w,b)$的梯度由

$$\nabla_w L(w,b) = - \sum_{x_i\in M}y_i x_i$$

$$\nabla_bL(w,b) = -\sum_{x_i \in M}y_i$$

给出。

随机选择一个误分类点$(x_i,y_i)$，对$w,b$进行更新：

$$w \gets w+ \eta y_i x_i$$

$$b \gets b+\eta y_i$$

式中$\eta(0<\eta\le 1)$是步长，在机器学习中又称为学习率。这样通过迭代可以期待损失函数$L(w,b)$不断减小，直到为0.

这种学习算法直观上有如下解释:当一个实例点被误分类，即位于分离超平面的错误一侧时，则调整$w,b$的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面之间的距离，直到超平面越过该误分类点使其被正确分类。

4. 感知机学习算法的收敛性

（Novikoff）定理设训练数据集为$T={(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)}$，其中$x_i\in\mathcal{X}=R^n,\ y_i\in\mathcal{Y}=\{-1,+1\},\ i=1,2,\dots,N$，则

1）存在满足条件$||\hat{w}_{opt}|| = 1$的超平面$\hat{w}_{opt}\cdot \hat{x} = w_{opt}\cdot x + b_{opt} = 0$将训练数据集完全正确分开；且存在$\gamma>0$，对所有的$i=1,2,\dots,N$

$$y_i(\hat{w}_{opt}\cdot \hat{x}_i = y_i(w_{opt}\cdot x_i + b_{opt}) \ge \gamma$$

2）令$R = \max_{1\le i\le N}||\hat{x}_i||$，则感知机算法在训练数据集上的误分类次数$k$满足不等式

$$k \le \left(\frac{R}{\gamma}\right)^2$$

定理表明，误分类的次数$k$是有上界的，经过有限次搜索可以找到将训练数据完全正确分开的分离超平面。但是，感知机学习算法存在许多解，这些解既依赖于初值的选择，也依赖于迭代过程中误分类点的选择顺序。为了得到唯一的超平面，需要对分离超平面增加约束条件。

ML 06、感知机的更多相关文章

[OpenCV] Samples 06: [ML] logistic regression
logistic regression,这个算法只能解决简单的线性二分类,在众多的机器学习分类算法中并不出众,但它能被改进为多分类,并换了另外一个名字softmax, 这可是深度学习中响当当的分类算法 ...
ML（2）--感知机
案例银行办信用卡--获得感知机我们到银行办信用卡时,银行并不是直接就给你办卡的,而是会根据你的一些个人信息.消费信息.个人信誉等指标综合考虑后,才会决定是否给你办卡(不像现在银行办信用卡有点随意). ...
ML 感知机（Perceptrons）
感知机 Perceptrons 学习Hinton神经网络公开课的学习笔记 https://class.coursera.org/neuralnets-2012-001 1 感知机历史在19世纪60年 ...
[ML] I'm back for Machine Learning
Hi, Long time no see. Briefly, I plan to step into this new area, data analysis. In the past few yea ...
ML面试1000题系列（1-20）
本文总结ML面试常见的问题集转载来源:https://blog.csdn.net/v_july_v/article/details/78121924 1.简要介绍SVM 全称是support vec ...
lecture2-NN结构的主要类型的概述和感知机
Hinton课程第二课一.NN结构的主要类型的概述这里的结构就是连接在一起的神经元.目前来说,在实际应用中最常见的NN就是前向NN,他是将数据传递给输入单元,通过隐藏层最后到输出层的单元:一个更有 ...
22----2013.06.29---HTML--html介绍.超链接和图片,表格,表单,表单标签,meta,复习当天内容
01 HTML HTML :Hypertext Markup Language 超文本标记语言(类似于裸奔的人.) 作用:向用户展示信息. CSS: Cascading 层叠样式表(类似于人的 ...
利用Python实现一个感知机学习算法
本文主要参考英文教材Python Machine Learning第二章.pdf文档下载链接: https://pan.baidu.com/s/1nuS07Qp 密码: gcb9. 本文主要内容包括利 ...
诗人般的机器学习，ML工作原理大揭秘
诗人般的机器学习,ML工作原理大揭秘 https://mp.weixin.qq.com/s/7N96aPAM_M6t0rV0yMLKbg 选自arXiv 作者:Cassie Kozyrkov 机器之心 ...

随机推荐

Strobogrammatic Number
Strobogrammatic Number I A strobogrammatic number is a number that looks the same when rotated 180 d ...
chrome调试命令模式
哈哈哈
Python之virtualenv安装
CentOS 7 yum install python-virtualenv virtualenv --no-site-packages testenv #不依赖真实环境的packages用 --no ...
linux学习之-vsftp
一.简介 vsftp是一个基于GPL发布的类unix系统上使用的ftp服务器软件,它的全称是very secure FTP ,软件的编写初衷是为了代码的安全,另外高速与高稳定性也是vsftp的两个重要 ...
HDU 4870 Rating（概率、期望、推公式） && ZOJ 3415 Zhou Yu
其实zoj 3415不是应该叫Yu Zhou吗...碰到ZOJ 3415之后用了第二个参考网址的方法去求通项,然后这次碰到4870不会搞.参考了chanme的,然后重新把周瑜跟排名都反复推导(不是推倒 ...
mysql 删除重复数据保留只保留一条
SELECT * FROM (SELECT addTime FROM motorcade.car_msg_info GROUP BY addTime HAVING COUNT(addTime) > ...
在Win7下使用sphinx-build建立开源软件文档
最近想看看odoo的使用文档,在线看不方便,而且还没有提供离线文档下载,由于是开源项目,此项目托管在Github上,于是就有了想通过Github把文档git下来,可是git下来的文档是.rst文件,无 ...
IOS - 多态
1. 多态性多态性是个生物名词,用来表示生物体在生命周期中的不同形态,用在编程语言中则表示相同的方法名,但是却有不同的实现方式.或者说相同的名字,不同的类.我们来看一个书上的示例: #import ...
<context-param>与<init-param>
<context-param>的作用: web.xml的配置中<context-param>配置作用1. 启动一个WEB项目的时候,容器(如:Tomcat)会去读它的配置文件w ...
shared_ptr 和 unique_ptr
c++11标准废除乐auto_ptr, C++ 标准库智能指针使用这些智能指针作为将指针封装为纯旧 C++ 对象 (POCO) 的首选项. unique_ptr 只允许基础指针的一个所有者. 除非你 ...

ML 06、感知机

机器学习算法 原理、实现与实践 —— 感知机