四、Logisitic Regssion练习（转载）

转载：http://www.cnblogs.com/tornadomeet/archive/2013/03/16/2963919.html

牛顿法：http://blog.csdn.net/xp215774576/article/details/45974081

http://blog.csdn.net/luoleicn/article/details/6527049

前言：

　　本节来练习下logistic regression相关内容，参考的资料为网页：http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex4/ex4.html。这里给出的训练样本的特征为80个学生的两门功课的分数，样本值为对应的同学是否允许被上大学，如果是允许的话则用’1’表示，否则不允许就用’0’表示，这是一个典型的二分类问题。在此问题中，给出的80个样本中正负样本各占40个。而这节采用的是logistic regression来求解，该求解后的结果其实是一个概率值，当然通过与0.5比较就可以变成一个二分类问题了。

　　实验基础：

　　在logistic regression问题中，logistic函数表达式如下：

　　这样做的好处是可以把输出结果压缩到0~1之间。而在logistic回归问题中的损失函数与线性回归中的损失函数不同，这里定义的为：

　　如果采用牛顿法来求解回归方程中的参数，则参数的迭代公式为：

　　其中一阶导函数和hessian矩阵表达式如下：

　　当然了，在编程的时候为了避免使用for循环，而应该直接使用这些公式的矢量表达式（具体的见程序内容）。

　　一些matlab函数：

　　find:

　　是找到的一个向量，其结果是find函数括号值为真时的值的下标编号。

　　inline:

　　构造一个内嵌的函数，很类似于我们在草稿纸上写的数学推导公式一样。参数一般用单引号弄起来，里面就是函数的表达式，如果有多个参数，则后面用单引号隔开一一说明。比如：g = inline('sin(alpha*x)','x','alpha')，则该二元函数是g(x,alpha) = sin(alpha*x)。

　　实验结果：

　　训练样本的分布图以及所学习到的分类界面曲线：

　　损失函数值和迭代次数之间的曲线：

　　最终输出的结果：

　　可以看出当一个小孩的第一门功课为20分，第二门功课为80分时，这个小孩不允许上大学的概率为0.6680，因此如果作为二分类的话，就说明该小孩不会被允许上大学。

　　实验代码（原网页提供）% Exercise -- Logistic Regressio

clear all; close all; clc

x = load('ex4x.dat');

y = load('ex4y.dat');

[m, n] = size(x);

% Add intercept term to x

x = [ones(m, ), x]; 

% Plot the training data

% Use different markers for positives and negatives

figure

pos = find(y); neg = find(y == );%find是找到的一个向量，其结果是find函数括号值为真时的值的编号

plot(x(pos, ), x(pos,), '+')

hold on

plot(x(neg, ), x(neg, ), 'o')

hold on

xlabel('Exam 1 score')

ylabel('Exam 2 score')

% Initialize fitting parameters

theta = zeros(n+, );

% Define the sigmoid function

g = inline('1.0 ./ (1.0 + exp(-z))'); 

% Newton's method

MAX_ITR = ;

J = zeros(MAX_ITR, );

for i = :MAX_ITR

    % Calculate the hypothesis function

    z = x * theta;

    h = g(z);%转换成logistic函数

    % Calculate gradient and hessian.

    % The formulas below are equivalent to the summation formulas

    % given in the lecture videos.

    grad = (/m).*x' * (h-y);%梯度的矢量表示法

    H = (/m).*x' * diag(h) * diag(1-h) * x;%hessian矩阵的矢量表示法

    % Calculate J (for testing convergence)

    J(i) =(/m)*sum(-y.*log(h) - (-y).*log(-h));%损失函数的矢量表示法

    theta = theta - H\grad;%此处的\右除表示H的逆矩阵乘grad

end

% Display theta

theta

% Calculate the probability that a student with

% Score  on exam  and score  on exam

% will not be admitted

prob =  - g([, , ]*theta)

%画出分界面

% Plot Newton's method result

% Only need  points to define a line, so choose two endpoints

plot_x = [min(x(:,))-,  max(x(:,))+];

% Calculate the decision boundary line，plot_y的计算公式见博客下面的评论。

plot_y = (-./theta()).*(theta().*plot_x +theta()); 直接令logistic回归的值为0.5，则可以得到e的指数为0，即：

%theta(1)*1+theta(2)*plot_x+theta(3)*plot_y=0,解出plot_y即可。

plot(plot_x, plot_y)

legend('Admitted', 'Not admitted', 'Decision Boundary')

hold off

% Plot J

figure

plot(:MAX_ITR-, J, 'o--', 'MarkerFaceColor', 'r', 'MarkerSize', )

xlabel('Iteration'); ylabel('J')

% Display J

参考资料：

http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex4/ex4.html

四、Logisitic Regssion练习（转载）的更多相关文章

六、regularized logisitic regssion练习（转载）
转载链接:http://www.cnblogs.com/tornadomeet/archive/2013/03/17/2964858.html 在上一讲Deep learning:五(regulari ...
TCP协议中的三次握手和四次挥手(图解) 转载
建立TCP需要三次握手才能建立,而断开连接则需要四次握手.整个过程如下图所示: 先来看看如何建立连接的. 首先Client端发送连接请求报文,Server段接受连接后回复ACK报文,并为这次连接分配资 ...
postfix中recipient/client/sender/helo四者的区别<转载>
postfix在main.cf中用下面四个做限制,那么这四者到底有什么区别? smtpd_recipient_restrictions smtpd_client_restrictions smtpd_ ...
Maven学习总结(四)——Maven核心概念--转载
一.Maven坐标 1.1.什么是坐标? 在平面几何中坐标(x,y)可以标识平面中唯一的一点. 1.2.Maven坐标主要组成 groupId:组织标识(包名) artifactId:项目名称 ver ...
Maven学习总结(四)——Maven核心概念——转载
一.Maven坐标 1.1.什么是坐标? 在平面几何中坐标(x,y)可以标识平面中唯一的一点. 1.2.Maven坐标主要组成 groupId:组织标识(包名) artifactId:项目名称 ver ...
DB2 SQL RR/RS/CS/UR四个级别《转载》
1.RR隔离级别:在此隔离级别下, DB2会锁住所有相关的纪录.在一个SQL语句执行期间,所有执行此语句扫描过的纪录都会被加上相应的锁.具体的锁的类型还是由操作的类型来决定,如果是读取,则加共享锁:如 ...
JMeter学习（四）参数化（转载）
转载自 http://www.cnblogs.com/yangxia-test JMeter也有像LR中的参数化,本篇就来介绍下JMeter的参数化如何去实现. 参数化:录制脚本中有登录操作,需要输入 ...
黑马程序员【JSP九大内置对象和四个作用域】转载
http://www.cnblogs.com/fanfu1/p/4530980.html JSP九大内置对象和四个作用域 ------- android培训.java培训.期待与您交流! ------ ...
Map集合的四种遍历方式(转载)
import java.util.HashMap; import java.util.Iterator; import java.util.Map; public class TestMap { pu ...

随机推荐

洛谷P3959 宝藏（NOIP2017）（状压DP，子集DP）
洛谷题目传送门 Dalao的题解多数是什么模拟退火.DFS剪枝.$O(3^nn^2)$的状压DP之类.蒟蒻尝试着把状压改进了一下使复杂度降到$O(3^nn)$. 考虑到每条边的贡献跟它所在的层 ...
php语言基础语法与编程工具推荐
php脚本语言,需要在服务器端执行,用浏览器返回HTML结果.在PHP中所有的语法都是如此,用户端是无法修改的,只有浏览权限. 一.php基础语法之输出方法 1.PHP中所有的脚本,可以放在文件中的任 ...
[luogu1962]斐波那契数列
来提供两个正确的做法: 斐波那契数列双倍项的做法(附加证明) 矩阵快速幂一.双倍项做法在偶然之中,在百度中翻到了有关于斐波那契数列的词条(传送门),那么我们可以发现一个这个规律$ \frac{F_ ...
洛谷 P3853 路标设置解题报告
P3853 路标设置题目背景 B市和T市之间有一条长长的高速公路,这条公路的某些地方设有路标,但是大家都感觉路标设得太少了,相邻两个路标之间往往隔着相当长的一段距离.为了便于研究这个问题,我们把公路 ...
【loj3043】【zjoi2019】线段树
题目描述有$m$个操作一次发生,每个操作有$\frac{1}{2}$的概率被执行 ; 一次操作为线段树([1,n])上的 $modify(Node,l,r,ql,qr)$ ; ...
[Offer收割]编程练习赛13 解题报告
http://hihocoder.com/contest/offers13/problems 题目1 : 风格不统一如何写程序首先:输入保证组成变量名的单词只包含小写字母. 做法:只要对不同的部分进 ...
HDU2072 tri树/map/set/字符串hash
lily的好朋友xiaoou333最近很空,他想了一件没有什么意义的事情,就是统计一篇文章里不同单词的总数.下面你的任务是帮助xiaoou333解决这个问题水题就是用来试试字符串算法的 tri树 ...
AtomicInteger和count++的比较
J2SE 5.0提供了一组atomic class来帮助我们简化同步处理.基本工作原理是使用了同步synchronized的方法实现了对一个long, integer, 对象的增.减.赋值(更新)操作 ...
vue基础篇---路由的实现
路由可以有两种实现方式,一种是标签形式的,一种是js实现. 标签: <router-link to='/city'> 北京 </router-link> 标签还有另外一种实现方 ...
【小白技术笔记】保存皮皮虾APP无水印视频到手机相册，只需要三步 [技术干货]
百万段友回皮皮虾,转身一变,都成了皮友.作为当年的资深段友,今天的皮友的我.看到好视频,经典视频,搞笑视频,就想保存一份到手机相册,然后皮皮虾啊皮皮虾,有个让人很讨厌的地方,保存视频的时候就有皮皮虾的 ...

四、Logisitic Regssion练习（转载）

四、Logisitic Regssion练习（转载）的更多相关文章

随机推荐

热门专题