参考博客 Liam Q博客和李航的《统计学习方法》

感知机学习旨在求出将训练数据集进行线性划分的分类超平面，为此，导入了基于误分类的损失函数，然后利用梯度下降法对损失函数进行极小化，从而求出感知机模型。感知机模型是神经网络和支持向量机的基础。下面分别从感知机学习的模型、策略和算法三个方面来介绍。

1. 感知机模型

感知机模型如下：

f(x)= sign(w*x+b)

其中，x为输入向量，sign为符号函数，括号里面大于等于0，则其值为1，括号里面小于0，则其值为-1。w为权值向量，b为偏置。求感知机模型即求模型参数w和b。感知机预测，即通过学习得到的感知机模型，对于新的输入实例给出其对应的输出类别1或者-1。

2. 感知机策略

假设训练数据集是线性可分的，感知机学习的目标就是求得一个能够将训练数据集中正负实例完全分开的分类超平面，为了找到分类超平面，即确定感知机模型中的参数w和b，需要定义一个损失函数并通过将损失函数最小化来求w和b。

这里选择的损失函数是误分类点到分类超平面S的总距离。输入空间中任一点x₀到超平面S的距离为：

其中，||w||为w的L2范数。

其次，对于误分类点来说，当-y_i(wx_i + b)>0时，y_i=-1，当-y_i(wx_i + b)<0时，y_i=+1。所以对误分类点（x_i, y_i）满足：

-y_i(wx_i +b) > 0

所以误分类点（x_i, y_i）到分类超平面S的距离是：

3. 感知机算法

感知机学习问题转化为求解损失函数式（1）的最优化问题，最优化的方法是随机梯度下降法。感知机学习算法是误分类驱动的，具体采用随机梯度下降法。首先，任意选取一个超平面w₀，b₀，然后用梯度下降法不断极小化目标函数式（1）。极小化的过程不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。

损失函数L(w,b)的梯度是对w和b求偏导，即：

其中，（0<<=1）是学习率，即学习的步长。

随机梯度下降法：假如你站在曲面的一点，要以最快的速度到达最低点，当然会沿着坡度最大的方向往下走（梯度的反方向）

综上，感知机学习算法如下：

算法1 感知机学习算法的原始形式

原始形式C++实现的源代码

 #include <iostream>

 #include <vector>

 #include <algorithm>

 #define random(x) (rand()%(x))

 //向量的点积

 double dot_product(std::vector<double>& a, std::vector<double>& b){

     if(a.size() != b.size()) return ;

     double res = ;

     for(int i =  ; i < a.size(); ++ i){

         res +=a[i]*b[i];

     }

     return res;

 }

 //感知机模型类

 class Preception{

 public:

     Preception(int iters = ,int learnRate = ,double initw = , double initb = ){

         iterators = iters;

         w.push_back(initw);

         b = initb;

         step = learnRate;

     }

     ~Preception(){

         w.clear();

         b = ;

     }

     //训练数据

     //如果迭代次数完，还没有找到w和b， 则认为数据集不是线性可分的，返回false

     //如果找到了w和b，则认为数据集是线性可分的，返回true

     bool train(std::vector<std::vector<double> >& train_x,std::vector<int>& train_y){

         if(train_x.size() != train_y.size()) return false;

         initWeight(train_x[].size());

         for(int iter =  ; iter  < iterators; ++ iter){

             bool flag = true;

             for(int i = ; i < train_x.size();){

                 if( (dot_product(w,train_x[i]) + b)*(double)train_y[i] <= ){

                     update(train_x[i],train_y[i]);

                     flag = false;

                 }else{

                     ++i;

                 }

             }

             if(flag) return true;

         }

         return false;

     }

     //批量预测数据

     std::vector<int> predict(std::vector<std::vector<double> >& data_x){

         std::vector<int> ret;

         for(int i =  ; i < data_x.size(); ++ i){

             ret.push_back(predict(data_x[i]));

         }

         return ret;

     }

     //预测x

     int predict(std::vector<double>& x){

         return dot_product(x,w)+ b >  ?  : -;

     }

     //打印感知机模型

     void printPreceptronModel(){

         std::cout<<"原始形式感知机模型：f(x)=sign(";

         for(int i =  ; i < w.size(); ++ i){

             if( i ) std::cout<<"+";

             if(w[i]!=) std::cout<<w[i];

             std::cout<<"x"<<i+;

         }

         if(b > ) std::cout<<"+";

         std::cout<<b<<")"<<std::endl;

     }

 private:

     //初始化向量w的维数

     void initWeight(int size){

         for(int i = ; i < size; ++ i){

             w.push_back(w[]);

         }

     }

     //更新w和b

     void update(std::vector<double>& x, double y){

         for(int i =  ; i < w.size(); ++ i){

             w[i] += step*y*x[i];

         }

         b += step*y;

        // for(int i = 0 ; i < w.size(); ++ i)

        //      std::cout<<w[i]<<",";

        //  std::cout<<std::endl;

       //  std::cout<<b<<std::endl;

     }

 private:

     int iterators;          //迭代次数

     //f(x) = sign(wx+b)

     std::vector<double> w;    //注意w是向量

     double b;

     double step;  //学习速率

 };

 int main(){

     std::vector<std::vector<double> >test_x();

     test_x[].push_back();test_x[].push_back();

     test_x[].push_back();test_x[].push_back();

     test_x[].push_back();test_x[].push_back();

     std::vector<int> test_y();

     test_y[] = ;

     test_y[] = ;

     test_y[] = -;

     Preception *model = new Preception();

     model->train(test_x,test_y);

     model->printPreceptronModel();

 }

感知机算法的原始形式

算法2 感知机学习算法的对偶形式

对偶形式的基本想法是，将w和b表示为实例x_i和标记y_i的线性组合形式，通过求解其系数而求得w和b。对误分类点（x_i, y_i）通过

所以，感知机学习算法的对偶形式如下：

对偶形式C++实现的源代码

 #include <iostream>

 #include <vector>

 #include <algorithm>

 #define random(x) (rand()%(x))

 //向量的点积

 double dot_product(std::vector<double>& a, std::vector<double>& b){

     if(a.size() != b.size()) return ;

     double res = ;

     for(int i =  ; i < a.size(); ++ i){

         res +=a[i]*b[i];

     }

     return res;

 }

 //感知机模型类

 class Preception{

 public:

     Preception(int iters = ,int learnRate = ,double initw = , double initb = ){

         iterators = iters;

         a.push_back(initw);

         b = initb;

         step = learnRate;

     }

     ~Preception(){

         a.clear();

         b = ;

     }

     //训练数据

     //如果迭代次数完，还没有找到a和b， 则认为数据集不是线性可分的，返回false

     //如果找到了a和b，则认为数据集是线性可分的，返回true

     bool train(std::vector<std::vector<double> >& train_x,std::vector<int>& train_y){

         if(train_x.size() != train_y.size()) return false;

         initWeight(train_x.size());

         std::vector<std::vector<double> > gram = productGram(train_x);

         for(int i =  ; i < a.size(); ++ i){

             int iter = ;

             while(iter < iterators){

                 double sum = b;

                 for(int j = ; j < a.size(); ++ j){

                     sum += a[j]*train_y[j]*gram[j][i];

                 }

                 sum *= train_y[i];

                 if(sum <= ) update(i,train_y[i]);

                 else break;

                 ++iter;

             }

             if(iter >= iterators) return false;

         }

         return true;

     }

     //批量预测数据

     std::vector<int> predict(std::vector<std::vector<double> >& data_x){

         std::vector<int> ret;

         for(int i =  ; i < data_x.size(); ++ i){

             ret.push_back(predict(data_x[i]));

         }

         return ret;

     }

     //预测x

     int predict(std::vector<double>& x){

         return dot_product(x,a)+ b >  ?  : -;

     }

     //打印感知机模型

     void printPreceptronModel(){

         std::cout<<"原始形式感知机模型：f(x)=sign(";

         for(int i =  ; i < a.size(); ++ i){

             if( i ) std::cout<<"+";

             if(a[i]!=) std::cout<<a[i];

             std::cout<<"x"<<i+;

         }

         if(b > ) std::cout<<"+";

         std::cout<<b<<")"<<std::endl;

     }

 private:

     //初始化向量a的维数

     void initWeight(int size){

         for(int i = ; i < size; ++ i){

             a.push_back(a[]);

         }

     }

     //生成Gram矩阵

     std::vector<std::vector<double> > productGram(std::vector<std::vector<double> >& train_x){

         int n = train_x.size();

         std::vector<std::vector<double> > gram(n, std::vector<double>(n,));

         for(int i =  ; i < n ; ++ i){

             for(int j =  ; j  < n; ++ j){

                 gram[i][j] = dot_product(train_x[i], train_x[j]);

             }

         }

         return gram;

     }

     //更新w和b

     void update(int index, double y){

         a[index] +=;

         b += step*y;

     }

 private:

     int iterators;          //迭代次数

     std::vector<double> a;    //注意w是向量

     double b;

     double step;  //学习速率

 };

 int main(){

     std::vector<std::vector<double> >test_x();

     test_x[].push_back();test_x[].push_back();

     test_x[].push_back();test_x[].push_back();

     test_x[].push_back();test_x[].push_back();

     std::vector<int> test_y();

     test_y[] = ;

     test_y[] = ;

     test_y[] = -;

     Preception *model = new Preception();

     model->train(test_x,test_y);

     model->printPreceptronModel();

 }

感知机学习算法的对偶形式

统计学习方法 --- 感知机模型原理及c++实现的更多相关文章

[笔记-统计学习方法]感知机模型(perceptron) 原理与实现
前几天认把感知机这一章读完了,顺带做了点笔记现在把笔记做第三次的整理 (不得不说博客园的LaTex公式和markdown排版真的不太舒服,该考虑在服务器上建一个博客了) 零.总结适用于具有线性可分 ...
统计学习方法 | 感知机 | python实现
感知机是二类分类的线性分类模型,利用随机梯度下降法对基于误分类的损失函数进行极小化. 书中算法可以将所有样本和系数向量写成增广向量的形式,并将所有负样本乘以-1,统一形式,方便计算. (1)训练数据集 ...
统计学习方法与Python实现（一）——感知机
统计学习方法与Python实现(一)——感知机 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义假设输入的实例的特征空间为x属于Rn的n维特征向量, ...
统计学习方法6—logistic回归和最大熵模型
目录 logistic回归和最大熵模型 1. logistic回归模型 1.1 logistic分布 1.2 二项logistic回归模型 1.3 模型参数估计 2. 最大熵模型 2.1 最大熵原理 ...
《统计学习方法》极简笔记P2：感知机数学推导
感知机模型输入空间是$\chi\subseteq\mathbb{R}^n$,输出空间是$y={+1,-1}$ 感知机定义为:$f(x)=sign(wx+b)$ 感知机学习策略输入空间任一点$x_0 ...
统计学习方法：罗杰斯特回归及Tensorflow入门
作者:桂. 时间:2017-04-21 21:11:23 链接:http://www.cnblogs.com/xingshansi/p/6743780.html 前言看到最近大家都在用Tensor ...
统计学习方法—SVM推导
目录 SVM 1. 定义 1.1 函数间隔和几何间隔 1.2 间隔最大化 2. 线性可分SVM 2.1 对偶问题 2.2 序列最小最优算法(SMO) 3. 线性不可分SVM 3.1 松弛变量 3.2 ...
word2vec模型原理与实现
word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具. gensim包提供了word2vec的python接口. word2vec采用了CBOW(Continuous B ...
李航《统计学习方法》CH01
CH01 统计学方法概论前言章节目录统计学习监督学习基本概念问题的形式化统计学习三要素模型策略算法模型评估与模型选择训练误差与测试误差过拟合与模型选择正则化与交叉验证正则 ...

随机推荐

Python 网络爬虫（图片采集脚本）
===============爬虫原理================== 通过Python访问网站,获取网站的HTML代码,通过正则表达式获取特定的img标签中src的图片地址. 之后再访问图片地址 ...
Memcache的增删改查
Memcache是把数据存放到内存的一种缓存技术,为了提高访问的速度,memcache存储的数据一般是频繁.不太重要的数据,php使用memcache,需要两步: (1).php_memcache.d ...
JS验证只能输入数字，数字和字母等的正则表达式
JS判断只能是数字和小数点 0.不能输入中文1)<input onpaste="return false;" type="text" name=" ...
一段SQL
如何将会计分录流水合并成会计分录,环境oracle 11g,代码如下: 表: CREATE TABLE "DEMO_VCH" ("SET_NO" BYTE), ...
Http原理理解及内容整理
更多资料及交流请加群:
NSIS对话框单位造成的控件移位问题
在使用NSIS脚本开发安装卸载程序,使用自定义的nsdialog控件.发现在小部分系统上安装时,一些控件会消失,或者挪位.于是排除问题,看看这些控件的为位置和坐标,发现基本上是使用了对话框单位的控件, ...
javascript for循环
2016年12月28日 20:01:54 星期三 html: <a href="aaaa">AAAA</a> <a href="bbbb&q ...
./configure,make,make install的作用
这些都是典型的使用GNU的AUTOCONF和AUTOMAKE产生的程序的安装步骤. ./configure是用来检测你的安装平台的目标特征的.比如它会检测你是不是有CC或GCC,并不是需要CC或GCC ...
[Sass]局部变量和全局变量
[Sass]局部变量和全局变量 Sass 中变量的作用域在过去几年已经发生了一些改变.直到最近,规则集和其他范围内声明变量的作用域才默认为本地.如果已经存在同名的全局变量,从 3.4 版本开始,Sas ...
js 实现图片实时预览
<body> 上传图片: <input type="file" name="file" style="width: 200px; h ...

统计学习方法 --- 感知机模型原理及c++实现

1. 感知机模型

2. 感知机策略

3. 感知机算法

统计学习方法 --- 感知机模型原理及c++实现的更多相关文章

随机推荐

热门专题