本文为《Kernel Logistic Regression and the Import Vector Machine》的阅读笔记
是技法课的课外阅读

Abstract:
基于KLR kernel logistic regression,能自然延伸到多分类问题
提供属于各类的概率
也有类似support vector,且这部分training data占比比SVM小

algrithm:
IVM基于Kernal logistic regression(KLR),下面介绍KLR

原始logistic regression为:
$H = -\frac{1}{n}\sum_i^n \left\{ [y_i=1]ln(p(x_i))+[y_i=0]ln(1-p(x_i))\right \}+\frac{\lambda}{2}w^tw$ (1)
其中$p(x)=\frac{1}{1+exp(-(xw+b))}$

根据represent theory,$xw=\sum_i^n K(x,x_i)a_i$(2),这里K表示kernel
(1)中前半部分,很容易用(2)替换后得到对应的kernel化版本
(1)中后半部分,令$a=(a_1,a_2,...,a_n)$,$K$为nxn的矩阵,$K_{ij}=K(x_i,x_j)$,
$X$为nxd的矩阵,n为样本量,d为每个样本变换后的维度,$K=XX^t$根据(2),有
$Xw=Ka=XX^ta$,$w=X^ta$,$w^tw=a^tXX^ta=a^tKa$

$H=\frac{1}{n}\sum_i^n \left\{ [y_i=1]ln(1+exp(-f(x_i)))+[y_i=0]ln(1+exp(f(x_i)))\right \}+\frac{\lambda}{2}a^tKa$(3)
其中$f(x)=b+\sum_{x_i\in S} K(x,x_i)a_i,S=\left\{x_1,x_2,...,x_n\right\}$(4)

由于KLR并非hinge loss,所以解完后得到的每个$a_i$都不等于0
IVM是基于KLR的,所做的改进即选出一些$a_i\neq 0$,而其他$a_i=0$,这些不等于0的样本点,类似于SVM的support vector,此处叫Import point

令这些Import point组成的集合成为$S$,大小为$n_s$,此时(4)式中的$S$只包含Import point
(3)式中的$K$也有变动
重新考虑(2)式:$xw=\sum_i^n K(x,x_i)a_i$,令$X_s$为由Import point变换后组成的矩阵,大小为$n_s\times d,$令$K_a=XX_s^t$为$n\times n_s$的矩阵
有$Xw = K_a a = XX_s^t a$,$w = X_s^t a$,$w^tw = a^tX_sX_s^ta=a^tK_q a$,此处$K_q=X_sX_s^t$,是$n_s\times n_s$的矩阵

用牛顿法求解$H$,令$H_1=\frac{1}{n}\sum_i^n \left\{ [y_i=1]ln(1+exp(-f(x_i)))+[y_i=0]ln(1+exp(f(x_i)))\right \}$,$H_2=\frac{\lambda}{2}a^tK_qa$
$\frac{\partial H_1}{\partial a_j} = \frac{1}{n}\sum_i^n \left\{ -[y_i=1]K(x_i,x_j)\frac{exp(-f(x_i))}{1+exp(-f(x_i))}+[y_i=0]K(x_i,x_j)\frac{exp(f(x_i))}{1+exp(f(x_i))}\right \}\\ \ \ \ = \frac{1}{n}\sum_i^n \left\{ -[y_i=1]K(x_i,x_j)(1-p(x_i))+[y_i=0]K(x_i,x_j)p(x_i)\right \}\\ \ \ \ = \frac{1}{n}\sum_i^n \left\{ -y_iK(x_i,x_j)(1-p(x_i))+(1-y_i)K(x_i,x_j)p(x_i)\right \}\\ \ \ \ = \frac{1}{n}\sum_i^n (p(x_i)-y_i)K(x_i,x_j)=\frac{1}{n}\sum_i^n {K_a^t}_{ji}{(p-y)}_{i1}=\frac{1}{n} {[K_a^t(p-y)]}_{j1}$
由于$H_2$是一个数字,所以$trace H_2=H_2$
$\partial a\ trace H_2 = \partial a\ trace \frac{\lambda}{2}a^tK_qa = \frac{\lambda}{2}(K_qa+K_qa)=\lambda K_qa$
$\frac{\partial H_2}{\partial a_j}=\lambda {[K_qa]}_{j1}=\lambda \sum_i^{n_s} {[K_q]}_{ji}a_{i1}$

$\frac{\partial^2 H_1}{\partial a_j\partial a_z}=\frac{1}{n}\sum_i^n \frac{exp(-f(x_i))}{(1+exp(-f(x_i)))^2}K(x_i,x_z)K(x_i,x_j)=\frac{1}{n}\sum_i^np(x_i)(1-p(x_i)){[K_a]}_{iz}{[K_a]}_{ij}$
令$W=diag(p(x_i)(1-p(x_i)))$
$\frac{\partial^2 H_1}{\partial a_j\partial a_z}=\frac{1}{n}\sum_i^n {[K_a^t]}_{ji}W_{ii}{[K_a]}_{iz}=\frac{1}{n} {[K_a^tWK_a]}_{jz}$
$\frac{\partial^2 H_2}{\partial a_j\partial a_z}=\lambda {[K_q]}_{jz}$

根据牛顿法的更新公式:$\alpha_{k+1} = \alpha_{k}-Hessian^{-1}g$
$a_{k+1} = a_{k}+{(\frac{1}{n} K_a^tWK_a+\lambda K_q)}^{-1}(\frac{1}{n}K_a^t(y-p)-\lambda K_qa_k)\\ \ \ \ ={(\frac{1}{n} K_a^tWK_a+\lambda K_q)}^{-1} (\frac{1}{n}K_a^t(y-p)-\lambda K_qa_k+\frac{1}{n} K_a^tWK_aa_k+\lambda K_qa_k)\\ \ \ \ ={(\frac{1}{n} K_a^tWK_a+\lambda K_q)}^{-1} (\frac{1}{n}K_a^t[(y-p)+WK_aa_k])$ (3)

detail:
1.$S=\emptyset$,$R={x_1,x_2,...,x_n}$
2.遍历R中的每一个样本,令$S=S\bigcup x_l$,求解a,使H最小
3.选取使H最小的$x_l$,记此时H的値为$H_{k+1}$
4.如果$\frac{|H_{k+1}-H_k|}{H_k}<\eta$,判定为收敛,返回S,以及a;否则重复2-4,直到收敛(通常设$\eta=0.001$)

2步骤中如果加入一个$x_l$,就要进行一轮牛顿法的迭代,是很花时间的,改为如下更新策略
每一次加入一个$x_l$,按公式(3)执行一次迭代

IVM import vector machine的更多相关文章

  1. 6. support vector machine

    1. 了解SVM 1. Logistic regression 与SVM超平面 给定一些数据点,它们分别属于两个不同的类,现在要找到一个线性分类器把这些数据分成两类.如果用x表示数据点,用y表示类别( ...

  2. 使用Support Vector Machine

    使用svm(Support Vector Machine)中要获得好的分类器,最重要的是要选对kernel. 常见的svm kernel包括linear kernel, Gaussian kernel ...

  3. Support Vector Machine (3) : 再谈泛化误差(Generalization Error)

    目录 Support Vector Machine (1) : 简单SVM原理 Support Vector Machine (2) : Sequential Minimal Optimization ...

  4. Support Vector Machine (2) : Sequential Minimal Optimization

    目录 Support Vector Machine (1) : 简单SVM原理 Support Vector Machine (2) : Sequential Minimal Optimization ...

  5. PRML读书会第七章 Sparse Kernel Machines(支持向量机, support vector machine ,KKT条件,RVM)

    主讲人 网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:59:22  大家好,今天一起交流下PRML第7章.第六章核函数里提到,有一类机器学习算法,不是对参数做点估计或求其分 ...

  6. Support Vector Machine (1) : 简单SVM原理

    目录 Support Vector Machine (1) : 简单SVM原理 Support Vector Machine (2) : Sequential Minimal Optimization ...

  7. 支持向量机 support vector machine

    SVM(support Vector machine) (1) SVM(Support Vector Machine)是从瓦普尼克(Vapnik)的统计学习理论发展而来的,主要针对小样本数据进行学习. ...

  8. A glimpse of Support Vector Machine

    支持向量机(support vector machine, 以下简称svm)是机器学习里的重要方法,特别适用于中小型样本.非线性.高维的分类和回归问题.本篇希望在正篇提供一个svm的简明阐述,附录则提 ...

  9. 支持向量机SVM(Support Vector Machine)

    支持向量机(Support Vector Machine)是一种监督式的机器学习方法(supervised machine learning),一般用于二类问题(binary classificati ...

随机推荐

  1. Fragment销毁时replace和add两个方法的区别

    这个首先从一个bug说起,如图:   我们都知道fragment切换有两种方式: 1. replace方式 transaction.replace(R.id.content, IndexFragmen ...

  2. Linux系统编程(16)——正则表达式入门

    字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等等.字符串是0个或更多个字符的序列.文本也就是文字,字符串.说某个字符串匹配某个正则表达式,通常是指这个字符串里 ...

  3. < IOS > X-code 5.1 x86 - 64 编译问题

    关于xcode 5.1   x86 - 64 编译问题   坐等了N久,终于IOS 7.1 发布了,作为一个果粉,忍不住第一时间升级了.结果用设备测试的时候,出问题了,一直检测不到设备,哈哈,纠结了半 ...

  4. C语言中long类型,int类型

    long类型表示long int,一般简写为long,注意long不表示long double.虽然有时候会有sizeof(long)=sizeof(int),long int与int是不同的: 16 ...

  5. 如何将ASM中的数据文件复制到操作系统中

    环境:Red Hat 5.7 + Oracle 10.2.0.5.0 Rac+ASM 如果你的Oracle数据库系统使用正使用ASM自动存储管理,你可曾想过要窥视一下ASM中的数据文件,ASM是个黑匣 ...

  6. PHP 表单处理

    PHP 超全局变量 $_GET 和 $_POST 用于收集表单数据(form-data). PHP - 一个简单的 HTML 表单 下面的例子显示了一个简单的 HTML 表单,它包含两个输入字段和一个 ...

  7. HDU 4333 Revolving Digits 扩展KMP

    链接:http://acm.hdu.edu.cn/showproblem.php?pid=4333 题意:给以数字字符串,移动最后若干位到最前边,统计得到的数字有多少比原来大,有多少和原来同样,有多少 ...

  8. 本地无sqlserver服务下操作数据库 之GSQL

    作为程序员无论是我们写的各种MIS系统还是游戏都离不开数据的存取操作,正如我们前几天在VS下做的一MIS系统,现在纠结. 如果是C/S或B/S模型就好了,可是需求不是,没办法,顾客是上帝...他们的需 ...

  9. LAMP的安装

    一,LAMP的安装流程:mysql.apache.php或者apache.mysql.php.php放到最后的原因是,php在编译安装的时候是依赖于前2者的. 二,Mysql的安装: 1.下载mysq ...

  10. 【SQL】大杂烩

    --------------------------------- 索引 --------------------------------- 语法: CREATE [索引类型] INDEX 索引名称 ...