Machine Learning 学习笔记 (3) —— 泊松回归与Softmax回归

本系列文章允许转载，转载请保留全文！

【请先阅读】【说明&总目录】http://www.cnblogs.com/tbcaaa8/p/4415055.html

1. 泊松回归 (Poisson Regression)

在生活中，经常会遇到一类问题需要对一段时间内某一小概率事件的发生次数建模，例如癌症、火灾等。

假设向量x表示引起这一事件发生的因素，向量θ表示因素的权重，则使用h_θ(x)=exp(θ^Tx)表示事件发生次数的期望。θ^Tx位于指数位置，意味着其每增加1个单位，将导至事件发生次数的期望值翻倍。

此时，因变量与自变量近似满足泊松分布，即：y⁽ⁱ⁾~π(h_θ(x⁽ⁱ⁾))。

下面求参数θ的极大似然估计。似然函数：

$L(y|x;\theta)=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta)=\prod_{i=1}^{m}\frac{e^{-h_\theta(x^{(i)})}h_\theta(x^{(i)})^{y^{(i)}}}{y^{(i)}!}$

对数似然函数：

$\ln L(y|x;\theta)=\sum_{i=1}^{m}(-h_\theta(x^{(i)})} + y^{(i)}\ln (h_\theta(x^{(i)})) - \ln(y^{(i)}!))$

定义损失函数：

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}(-h_\theta(x^{(i)}) + y^{(i)}\ln (h_\theta(x^{(i)})) )$

要使似然函数最大，只需使损失函数最小。使用损失函数的极小值代替最小值：

$\frac{\partial}{\partial \theta_j}J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}(-h_\theta(x^{(i)})x^{(i)}_j + y^{(i)}\frac{1}{h_\theta(x^{(i)})}h_\theta(x^{(i)})x^{(i)}_j) \quad for\ j=0\ldots n$

化简，有：

$\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \quad for\ j=0\ldots n$

最后，使用梯度下降法迭代求解：

$\theta^{(k+1)}_j=\theta^{(k)}_j-\alpha \frac{\partial}{\partial \theta_j} J(\theta) \quad for\ j=0\ldots n$

其中， $\alpha$ 为学习率。

2. Softmax回归 (Softmax Regression)

利用之前介绍的逻辑回归模型，我们已经可以解决二分类问题。下面，我们将二分类问题推广为k分类问题。

在逻辑回归中，因变量y∈{0,1}，分别对应两个分类；而在Softmax回归模型中，因变量y∈{1,2,...,k}，分别对应k个分类。Softmax回归假定因变量服从参数为Φ₁,...,Φ_k的多项分布，即y(i)~Mult(Φ₁,...,Φ_k)。其中：

$\phi_i=\frac{\exp(\theta_i^Tx)}{1+\sum_{l=1}^{k-1}\exp(\theta_l^Tx)}\quad for\ i=1\ldots k-1$

参数Φ_k是冗余的，利用概率之和等于1的条件，可以得到：

$\phi_k=1-\sum_{i=1}^{k-1}\phi_i=\frac{1}{1+\sum_{l=1}^{k-1}\exp(\theta_l^Tx)}$

同时定义：

$h_\theta(x)=\begin{bmatrix}\phi_1 & \ldots & \phi_{k-1} \end{bmatrix}^T$

$\theta=\begin{bmatrix}\theta_1 & \ldots & \theta_{k-1} \end{bmatrix}^T$

$\theta_i=\begin{bmatrix}\theta_{i0} & \ldots & \theta_{in} \end{bmatrix}^T \quad for\ i=1\ldots k-1$

容易证明，Φ具有如下性质：

$\frac{\partial\ln\phi_i}{\partial\theta_{pq}}=(1-\phi_p)x_q\quad (i=p)$

$\frac{\partial\ln\phi_i}{\partial\theta_{pq}}=-\phi_px_q\quad (i\neq p)$

$for\ i=1\ldots k$

尤其需要注意的是，上述性质对i=k的情况仍然成立，尽管推导过程并不相同。后续证明中将直接使用这些性质。

下面求参数θ的极大似然估计，似然函数：

$L(y|x;\theta)=\prod_{t=1}^{m}P(y^{(t)}|x^{(t)};\theta)=\prod_{t=1}^{m}\prod_{i=1}^{k}\phi_i^{\textbf{1}\{y^{(t)}=i \}}$

其中，函数1{expression}定义如下：当expression为真时，函数值为1；否则为0。Φ的性质可以利用1{·}进一步化简。

对数似然函数：

$\ln L(y|x;\theta)=\sum_{t=1}^{m}\sum_{i=1}^{k}\textbf{1}\{y^{(t)}=i \} \ln \phi_i$

定义损失函数：

$J(\theta)=-\frac{1}{m}\sum_{t=1}^{m}\sum_{i=1}^{k}\textbf{1}\{y^{(t)}=i \} \ln \phi_i$

要使似然函数最大，只需使损失函数最小。使用损失函数的极小值代替最小值：

$\frac{\partial}{\partial\theta_{pq}}J(\theta)=-\frac{1}{m}\sum_{t=1}^{m} \sum_{i=1}^{k}\textbf{1}\{y^{(t)}=i \} \frac{\partial\ln\phi_i}{\partial\theta_{pq}}=-\frac{1}{m}\sum_{t=1}^{m} \frac{\partial\ln\phi_{y^{(t)}}}{\partial\theta_{pq}} \\ =-\frac{1}{m}\sum_{t=1}^{m}( \textbf{1}\{y^{(t)}=p \}-\phi_p)x_q^{(t)}=\frac{1}{m}\sum_{t=1}^{m}(\phi_p- \textbf{1}\{y^{(t)}=p \})x_q^{(t)}$

可以将上式进一步整理为向量形式：

$\frac{\partial}{\partial\theta_{:j}}J(\theta)=\frac{1}{m}\sum_{i=1}^{m}\left(\begin{bmatrix}\phi_1 \\ \vdots \\ \phi_{k-1} \end{bmatrix}- \begin{bmatrix} \textbf{1}\{y^{(i)}=1\} \\ \vdots \\ \textbf{1}\{y^{(i)}=k-1\}\end{bmatrix} \right)x_j^{(i)} \\ =\frac{1}{m}\sum_{i=1}^{m}\left(h_\theta(x^{(i)}) - \begin{bmatrix} \textbf{1}\{y^{(i)}=1\} \\ \vdots \\ \textbf{1}\{y^{(i)}=k-1\}\end{bmatrix} \right)x_j^{(i)} \quad for\ j=0\ldots n$

最后，使用梯度下降法迭代求解：

$\theta^{(k+1)}_{:j}=\theta^{(k)}_{:j}-\alpha \frac{\partial}{\partial \theta_{:j}} J(\theta) \quad for\ j=0\ldots n$

至此，本系列已经探讨了四个常用的回归模型，其中的泊松回归和Softmax回归初看并不容易理解。关于h_θ(x)的来历，以及不同模型中J(θ)相似的原因，将在后续文章中作出说明。

Machine Learning 学习笔记 (3) —— 泊松回归与Softmax回归的更多相关文章

[Machine Learning]学习笔记-Logistic Regression
[Machine Learning]学习笔记-Logistic Regression 模型-二分类任务 Logistic regression,亦称logtic regression,翻译为" ...
Machine Learning 学习笔记
点击标题可转到相关博客. 博客专栏:机器学习 PDF 文档下载地址:Machine Learning 学习笔记机器学习 scikit-learn 图谱人脸表情识别常用的几个数据库机器学习 F1- ...
Machine Learning 学习笔记 (4) —— 广义线性模型
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 指数分布族简介之前的文章分 ...
[Python & Machine Learning] 学习笔记之scikit-learn机器学习库
1. scikit-learn介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最 ...
Machine Learning 学习笔记1 - 基本概念以及各分类
What is machine learning? 并没有广泛认可的定义来准确定义机器学习.以下定义均为译文,若以后有时间,将补充原英文...... 定义1.来自Arthur Samuel(上世纪50 ...
Coursera 机器学习第6章（上） Advice for Applying Machine Learning 学习笔记
这章的内容对于设计分析假设性能有很大的帮助,如果运用的好,将会节省实验者大量时间. Machine Learning System Design6.1 Evaluating a Learning Al ...
Machine Learning 学习笔记 (1) —— 线性回归与逻辑回归
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 梯度下降法 (Gradien ...
吴恩达Machine Learning学习笔记（三）--逻辑回归+正则化
分类任务原始方法:通过将线性回归的输出映射到0-1,设定阈值来实现分类任务改进方法:原始方法的效果在实际应用中表现不好,因为分类任务通常不是线性函数,因此提出了逻辑回归逻辑回归假设表示--引入 ...
machine learning学习笔记
看到Max Welling教授主页上有不少学习notes,收藏一下吧,其最近出版了一本书呢还,还没看过. http://www.ics.uci.edu/~welling/classnotes/clas ...

随机推荐

Visual studio 2013 Team Foundation Server TFS2013 设置签出独占锁
摘自: http://www.cnblogs.com/52XF/p/4239056.html 以备自查如侵权,请告知
windows server 2008 r2 搭建文件服务器
目的需求:在测试环境下模拟公司现状需求,利用windows server 搭建文件服务器工具必备:(1)vmware workstation,(2)windows server 2008 r2.is ...
JDBC数据库连接（MySQL为例）
1.什么是JDBC?有什么作用? Java Data Base Connectivity Java数据库连接协议是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问. 他提 ...
ElasticSearch 模板文件配置
首先是推荐一下参考资料中文资料:http://kibana.logstash.es/content/elasticsearch/index.html 官方文档:https://www.elastic ...
16）JAVA实现回调(Android，Swing中各类listener的实现）
熟悉MS-Windows和X Windows事件驱动设计模式的开发人员,通常是把一个方法的指针传递给事件源,当某一事件发生时来调用这个方法(也称为"回调").Java ...
delphi 更改不了窗体的标题
delphi定义变量名千万要注意,不能和关键字同名,今天我无意间定义了一个caption的变量导致我怎么都不能修改窗的标题.
Delphi7中编译提示“Unsafe type 'PChar'”的原因及处理办法
delphi7中加入了对.net的支持在.net中是没有指针的(托管环境中),所以指针都是不安全的,不符合.net规范所以d7里有警告,可以不管它 DELPHI7已经考虑到了移植到点NET的问题, ...
Delphi XE5 for android 使用 BITMAP STYLE DESIGNER 改变控件背景
一.BITMAP STYLE DESIGNER 工具集成在IDE开发工具的TOOLS菜单. 使用NEW 新建一个安卓样式.NEW—NEW ANDROID STYLE FOR FIREMONKEY. 这 ...
Python自然语言工具包(NLTK)入门
在本期文章中,小生向您介绍了自然语言工具包(Natural Language Toolkit),它是一个将学术语言技术应用于文本数据集的 Python 库.称为“文本处理”的程序设计是其基本功能:更深 ...
5.css字体
下面的用一个表格总结了文本样式中字体的一些设置方法: 属性名说明 CSS 版本 font-size 设置字体的大小 1 font-variant 设置英文字体是否转换为小型大写 1 font-sty ...

Machine Learning 学习笔记 (3) —— 泊松回归与Softmax回归

Machine Learning 学习笔记 (3) —— 泊松回归与Softmax回归的更多相关文章

随机推荐

热门专题