前几天认把感知机这一章读完了,顺带做了点笔记

现在把笔记做第三次的整理

(不得不说博客园的LaTex公式和markdown排版真的不太舒服,该考虑在服务器上建一个博客了)

零、总结

  1. 适用于具有线性可分的数据集的二分类问题,可以说是很局限了
  2. 感知机本质上是一个分离超平面
  3. 在向量维数(特征数)过高时,选择对偶形式算法

    在向量个数(样本数)过多时,应选择原始算法
  4. 批量梯度下降和随机梯度下降的区别和优势

    参考链接:随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比
  • 批量梯度下降(BGD, Batch Gradient Descent)

    $ \theta \leftarrow \theta + \eta \sum \frac{\partial L}{\partial \theta}$

    即多次做全局样本的参数更新

    缺点:计算耗时

    优点:可以趋向全局最优,受数据噪音影响少
  • 随机梯度下降(SGD, Srochastic Gradient Descent)

    $ \theta \leftarrow \theta + \eta \frac{\partial L}{\partial \theta}$

    即多次做单个样本的参数更新

    缺点:训练耗时较短

    优点:不一定趋向全局最优(往往是最优/较优,单峰问题除外),受数据噪音影响大

一、模型

输入空间 $ \mathcal{X} \subseteq R^n $

输出空间 $ \mathcal{Y} \subseteq {-1, +1} $

假设空间 $ \mathcal{F} \subseteq {f|f(x) = \omega \cdot x + b} $

参数 $ \omega \in R^n, b \in R $

模型 $ f(x) = sign(\omega \cdot x + b) $

其中

符号函数为

\[ sign(x)=\left\{\begin{matrix}
+1 , x \geqslant 0\\
-1 , x \geqslant 0
\end{matrix}\right. \]

线性方程

$ \omega \cdot x + b $

可以表示为特征空间 $ R^n $中的一个分离超平面

二、策略

(定义的损失函数,并极小化损失函数)

(注意损失函数非负的性质)

为了使损失函数更容易优化,我们选择误分类点到超平面的距离作为损失函数

任意向量\(x \in R^n\)距分离超平面的距离为

$ S=\frac{1}{|\omega|}|\omega \cdot x + b| $

接下来优化一下这个距离,让它更好的成为一个损失函数

  1. 为了连续可导,去绝对值

    $ S=-\frac{1}{|\omega|} y_i(\omega \cdot x + b) $
  2. 去掉不相关的系数(避免浪费计算),得到

    $ L(\omega, b)=-\sum_{x_i \in M} y_i(\omega \cdot x + b) \(
    其中\) M $为误分类点集合

三、算法

(如何实现最优化问题)

注意最终训练出的模型参数的值取决于初值和误分类点的选取,所以一般值不同

为了极小化损失函数,我们采用梯度下降的方法

  1. 原始形式算法
  • 赋初值 $ \omega \leftarrow 0 , b \leftarrow 0 $
  • 选取数据点 $ (x_i, y_i) $
  • 判断该数据点是否为当前模型的误分类点,即判断若$ y_i(\omega \cdot x + b) <=0 $

    则更新

\[ \begin{matrix}
\omega &\leftarrow \omega + \eta n_ix_iy_i \\
b &\leftarrow b + \eta n_iy_i
\end{matrix}\]

  1. 对偶形式算法

    注意到原始形式算法中,最终训练好的模型参数是这样的,其中$ n_i $表示在第i个数据点上更新过几次

\[\begin{matrix}
\omega &= \eta \sum_i n_ix_iy_i \\
b &= \eta \sum_i n_iy_i
\end{matrix}
\]

于是我们可以作出以下简化

  • 赋初值 $ n \leftarrow 0, b \leftarrow 0 $
  • 选取数据点 $ (x_i, y_i) $
  • 判断该数据点是否为当前模型的误分类点,即判断若$ y_i(\eta \sum n_iy_ix_i \cdot x + b) <=0 $

    则更新

\[ \begin{matrix}
n_i &\leftarrow n_i + 1 \\
b &\leftarrow b + \eta y_i
\end{matrix}\]

为了减少计算量,我们可以预先计算式中的内积,得到Gram矩阵

$ G=[x_i, x_j]_{N \times N} \(
3. **原始形式和对偶形式的选择**
相见知乎[如何理解感知机学习算法的对偶形式?](https://www.zhihu.com/question/26526858)
在向量维数(特征数)过高时,计算内积非常耗时,应选择对偶形式算法加速
在向量个数(样本数)过多时,每次计算累计和(对偶形式中的\)\omega$)就没有必要,应选择原始算法

四、代码实现

因为感知机对数据要求很严格,为了实现这个模型,我用到了iris的数据集,用来给鸢尾花分类

又因为感知机只能做二分类,所以还是要把原数据的两个类别合并

为了学习numpy,还是用了python实现

import numpy as np
from matplotlib import pyplot as plt class Perceptron:
# use the primitive algorithm
arguments={
"item_class":{
"Iris-setosa": -1,
"Iris-versicolor": 1,
"Iris-virginica": 1,
},
"epoch": 800,
"colors": ['blue', 'red'],
"draw_start_x": 4,
"draw_end_x": 7.5,
"epsilon": 0.0,
"learning_rate": 0.25,
} def __init__(self, vec_dim, learning_rate=None, epsilon=None):
# self.data=np.empty(dim)
# self.counter=np.zeros(dim)
self.data=None
self.vec_dim=vec_dim
self.lr=learning_rate
if epsilon:
self.epsilon=epsilon
else:
self.epsilon=self.arguments["epsilon"]
if learning_rate:
self.lr=learning_rate
else:
self.lr=self.arguments["learning_rate"] self.weight=np.zeros((self.vec_dim-1, 1))
self.bias=0 def read_data(self, filepath):
raw_data=[]
with open(filepath, "r") as file:
for line in file.readlines():
if line=='\n':
break
item=line.replace('\n', '').split(',')
itemc=self.arguments["item_class"][item[-1]]
vec=[float(x) for x in item[0:2]]+[itemc] raw_data.append(vec)
self.data=np.array(raw_data).T def process(self):
# it is dual form
vec=self.data[:, 0:2]
self.gram=np.dot(vec, vec.T) def train(self):
self.bias=0
self.weight=np.zeros((self.vec_dim-1, 1))
# self.counter=np.zeros(dim)
for epoch in range(1, self.arguments["epoch"]+1):
error_counter=0
for idx in range(self.data.shape[1]):
vec=self.data[:, idx]
x, y=vec[0:-1, np.newaxis], vec[-1]
if y*(np.dot(self.weight.T, x)+self.bias)<=self.epsilon:
self.weight+=self.lr*y*x
self.bias+=self.lr*y
error_counter+=1
print("epoch #%03d: error:%03d total:%03d"%(
epoch, error_counter, self.data.shape[1]))
print("weight:", self.weight.ravel())
print("bias:", self.bias, "\n") if error_counter==0:
print("train done!")
break def show(self):
for idx in range(self.data.shape[1]):
color=self.arguments["colors"][0]
if self.data[2, idx]<0:
color=self.arguments["colors"][1]
plt.scatter(self.data[0, idx], self.data[1, idx], color=color)
y=[-(self.weight[0, 0]*self.arguments["draw_start_x"] + self.bias)/self.weight[1, 0],
-(self.weight[0, 0]*self.arguments["draw_end_x"] + self.bias)/self.weight[1, 0]]
plt.plot([self.arguments["draw_start_x"], self.arguments["draw_end_x"]], y)
plt.show()

更新了代码实现部分

[笔记-统计学习方法]感知机模型(perceptron) 原理与实现的更多相关文章

  1. 统计学习方法 --- 感知机模型原理及c++实现

    参考博客 Liam Q博客 和李航的<统计学习方法> 感知机学习旨在求出将训练数据集进行线性划分的分类超平面,为此,导入了基于误分类的损失函数,然后利用梯度下降法对损失函数进行极小化,从而 ...

  2. 统计学习方法 | 感知机 | python实现

    感知机是二类分类的线性分类模型,利用随机梯度下降法对基于误分类的损失函数进行极小化. 书中算法可以将所有样本和系数向量写成增广向量的形式,并将所有负样本乘以-1,统一形式,方便计算. (1)训练数据集 ...

  3. 《统计学习方法》极简笔记P2:感知机数学推导

    感知机模型 输入空间是$\chi\subseteq\mathbb{R}^n$,输出空间是$y={+1,-1}$ 感知机定义为:$f(x)=sign(wx+b)$ 感知机学习策略 输入空间任一点$x_0 ...

  4. 机器学习笔记(一)&#183; 感知机算法 &#183; 原理篇

    这篇学习笔记强调几何直觉,同时也注重感知机算法内部的动机.限于篇幅,这里仅仅讨论了感知机的一般情形.损失函数的引入.工作原理.关于感知机的对偶形式和核感知机,会专门写另外一篇文章.关于感知机的实现代码 ...

  5. 统计学习方法6—logistic回归和最大熵模型

    目录 logistic回归和最大熵模型 1. logistic回归模型 1.1 logistic分布 1.2 二项logistic回归模型 1.3 模型参数估计 2. 最大熵模型 2.1 最大熵原理 ...

  6. 统计学习方法与Python实现(一)——感知机

    统计学习方法与Python实现(一)——感知机 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义 假设输入的实例的特征空间为x属于Rn的n维特征向量, ...

  7. 《统计学习方法》极简笔记P4:朴素贝叶斯公式推导

    <统计学习方法>极简笔记P4:朴素贝叶斯公式推导 朴素贝叶斯基本方法 通过训练数据集 T={(x_1,y_1),(x_2,y_2),(x_N,y_N)...,(x_1,y_1)} 学习联合 ...

  8. HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注

    笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 5. 感知机分类与序列标注 第4章我们利用隐马尔可夫模型实现了第一个基于序列标注的 ...

  9. 感知机(perceptron)原理总结

    目录 1. 感知机原理 2. 损失函数 3. 优化方法 4. 感知机的原始算法 5. 感知机的对偶算法 6. 从图形中理解感知机的原始算法 7. 感知机算法(PLA)的收敛性 8. 应用场景与缺陷 9 ...

随机推荐

  1. 《剑指offer》数组中出现次数超过一半的数字

    一.题目描述 数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字.例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}.由于数字2在数组中出现了5次,超过数组长度的一半,因此输出 ...

  2. 「JavaSE 重新出发」02.02 引用数据类型

    引用(复合)数据类型 1. 枚举类型 例: 枚举类型 Size 的声明: enum Size { SMALL, MEDIUM, LARGE, EXTRA_LARGE }; 声明 Size 类型变量: ...

  3. 通过curl获取网页访问时间

    curl -w %{time_namelookup}:%{time_connect}:%{time_starttransfer}:%{time_total}:%{speed_download}&quo ...

  4. SpringCloud学习笔记(6)----Spring Cloud Netflix之负载均衡-Ribbon的使用

    1. 什么是负责均衡? 负载均衡,就是分发请求流量到不同的服务器. 负载均衡一般分为两种 1. 服务器端负载均衡(nginx) 2. 客户端负载均衡(Ribbon) 2. 服务提供者(spring-c ...

  5. 优动漫PAINT-超简单灌木教程

    超简单灌木教程~零基础神马的都能神还原哦! 优动漫PAINT下载:http://wm.makeding.com/iclk/?zoneid=18597 想要Get到更多有关优动漫的信息包括软件下载,可关 ...

  6. 解决Windows下git需要每次都要ssh-add的问题

    顽皮的很: 不知道怎么回事,每次打开git提交代码都需要ssh-add一下秘钥才可以正常提交: 不然就报错权限之类的问题: 怎么才能更方便一些? 卸了重装!我没试... 再或者是在 git 的安装目录 ...

  7. chrome 获取移动端页面元素信息

    一:背景在使用appium进行app端自动化测试的时候,一般使用的是uiautomatorviewer来给页面元素做定位.但如果遇到页面元素类型是webview的时候,则只能定位整个页面,而不能更进一 ...

  8. mysql中如何查看某个数据库或表占用的磁盘空间

    查整个库的状态:select concat(truncate(sum(data_length)/1024/1024,2),'MB') as data_size,          concat(tru ...

  9. vue总线bus传值的一些问题

    动态组件中用总线Bus的坑 在我们的项目总难免会遇到用动态组件,这里就拿vue官方的例子为例,我们欲在组件中添加总线bus(其实官方推荐的vuex更好用,但是有时候我们只需要传一个小状态,不需要用vu ...

  10. python 比较数字大小按从大到小输出

    主要用到的python 的知识点 1:   内置函数max 2:     列表的操作 3:   while 循环 4 :  错误处理 代码如下: #!/usr/bin/python #coding=u ...