logistics回归简单应用(二)
警告:本文为小白入门学习笔记
网上下载的数据集链接:https://pan.baidu.com/s/1NwSXJOCzgihPFZfw3NfnfA 密码: jmwz
不知道这个数据集干什么用的,根据直观分析应该属于分类问题,有两个变量X1和X2,Y取值非零即一,用MATLAB分析发现第二列对Y的影响较为明显

大致以8为分界线,8右边Y值为0,8左边Y为1.
首先假设舍去属性X1,设数据集为(X2,Y)。然后分别用线性回归(Liner regression)和逻辑回归(logistics regression)对数据集进行分类分析比较。最后再把属性X1加上看看结果怎么样。
(1)假设函数(hypothesis function):
参数(parameter)设为w = [w1;w2];
hw(x) = w1 + w2x;
(2)代价函数(cost function):
J(w) = 1/2m∑(hw(x(i)) - y(i))^2 ; (m是数据集的个数,乘上2是为了后来求导时候方便)
J(w) = 1/200∑(w1 + w2x(i) - y(i))^2;
(3)梯度下降算法(gradient descent algorithm)求解出参数w1和w2:
w1 := ðJ(w1,w2)/ðw1 = 1/m∑(hw(x(i)) - y(i));
w2 := ðJ(w1,w2)/ðw2 = 1/m∑(hw(x(i)) - y(i))x(i);
(ð表示求偏导)
repeat until convergence {
w1 := w1 - α1/m∑(hw(x(i)) - y(i));
w2 := w2 - α1/m∑(hw(x(i)) - y(i))x(i);
};
(α是步长,使用MATLAB/octave是自动选取)
注意:在每次更新w1,w2时候应该注意更新的顺序,应该是先一起计算再一同更新,也就是每一次更新时,w1和w2的值都在变化。
接下来就使用MATLAB(octave也可以)来测试整个分析过程是否正确,然后再用python代码实现。
(4)MATLAB模拟(octave同理可用)
新建一个costFunction.m文件 写入函数:
function[jval,gradient] = costFunction(w)
filename = 'testSet.txt';
A = importdata(filename);
x = A(:,2);
y = A(:,3);
m = 0;
for i = 1:100
m = m + (w(1) + w(2) * x(i) - y(i)).^2;
end
jval = 1/200 * m;
n = 0;
for i = 1:100
n = n + (w(1) + w(2) * x(i) - y(i));
end
gradient(1) = 1/100 * n;
n = 0;
for i = 1:100
n = n + (w(1) + w(2) * x(i) - y(i))*x(i);
end
gradient(2) = 1/100 * n;
命令行窗口输入:
>> options = optimset('GradObj','on','MaxIter',100);
>> initialW = zeros(2,1);
>> [optW,functionVal,exitFlag] = fminunc(@costFunction,initialW,options)
返回结果:
optW =
1.1202
-0.0897
functionVal =
0.0385
exitFlag =
1
结果表明:
w1 = 1.1202 ; w2 = -0.0897 ; 函数返回的结果是0.0385(这个值越接近零,表示拟合的越好) ;extiFlag = 1表示收敛
(5)画出图像
既然已经得到了w1和w2的值那就可以画出假设函数(hypothesis function)看看这么样吧!!

结果是这样的,这是线性回归结果,但是对于分类为题,这样做并不是什么好主意(只是用它来作比较练练手),所以接下来选用logistics回归试一试。
因为对于这个数据集,函数值Y = 0 or 1,所以希望对于输入值x,假设函数 0<=Y<=1,这样最好不过了!
不同之处需要改变假设函数(hypothesis function):
hw(x) = g(w'x) (这里'为转置的意思)
g(z) = 1/(1+e‾z)

那么这个时候hw(x)表示的什么意识呢?函数的输出值是对输入值x可能性的评价
例如:判断一个肿瘤(tumor)是良性还是恶性, 假如现在只取肿瘤大小x这个属性进行分析。
如果当x为一定值时 hw(x) = 0.7,可以说这个肿瘤有70%的概率是恶性肿瘤。
所以:hw(x) = P(y=1|x;w) (表示在x,w的条件下,y=1的概率是多少)
(1)首先让表达式以矩阵的形式表示
w = [w1;w2] ; x = [1;x];
z = w1 + w2x = w'x;
hw(z) = 1/(1+e‾z);
然后如何计算w1和w2呢?
(2)代价函数(cost function)
J(w) = 1/m∑1/2(hw(x(i)) - y(i))^2 ;
设:cost(hw(x),y) = 1/2(hw(x) - y)^2;
cost(hw(x),y)= -log(hw(x)) if y=1;
cost(hw(x),y)= -log(1 - hw(x)) if y=0;
合并成一个连续函数:
cost(hw(x),y)= -y*log(hw(x)) - (1-y)*log(1-hw(x));
代入代价函数中得:
J(w) = -1/m[∑-y(i)*log(hw(x(i))) - (1-y(i)*log(1-hw(x(i)))];
(3)梯度下降算法(gradient descent algorithm)
repeat{
wj :=wj - α(δJ(w)/δwj), (j = 1,2......n)
}
(α学习步长)
求偏导(懒得打字了):

更新过程就可以写成
repeat{
wj := wj - α1/m∑(hw(x(i)) - y(i))xj(i) ; (j = 1,2......n)
}
其中x0 = 1; 是不是十分眼熟,这个式子和上面的式子一样,只是假设函数hw(x)不同罢了。
(4)MATLAB实现

决策曲线:

logistics回归简单应用(二)的更多相关文章
- logistics回归简单应用——梯度下降,梯度上升,牛顿算法(一)
警告:本文为小白入门学习笔记 由于之前写过详细的过程,所以接下来就简单描述,主要写实现中遇到的问题. 数据集是关于80人两门成绩来区分能否入学: 数据集: http://openclassroom.s ...
- 机器学习算法的Python实现 (1):logistics回归 与 线性判别分析(LDA)
先收藏............ 本文为笔者在学习周志华老师的机器学习教材后,写的课后习题的的编程题.之前放在答案的博文中,现在重新进行整理,将需要实现代码的部分单独拿出来,慢慢积累.希望能写一个机器学 ...
- 机器学习实战-Logistics回归
Logistics回归:实战,有两个特征X0,X1.100个样本,进行Logistics回归 1.导入数据 def load_data_set(): """ 加载数据集 ...
- Popular generalized linear models|GLMM| Zero-truncated Models|Zero-Inflated Models|matched case–control studies|多重logistics回归|ordered logistics regression
============================================================== Popular generalized linear models 将不同 ...
- iOS开发UI篇—Quartz2D简单使用(二)
iOS开发UI篇—Quartz2D简单使用(二) 一.画文字 代码: // // YYtextview.m // 04-写文字 // // Created by 孔医己 on 14-6-10. // ...
- 使用C语言实现二维,三维绘图算法(3)-简单的二维分形
使用C语言实现二维,三维绘图算法(3)-简单的二维分形 ---- 引言---- 每次使用OpenGL或DirectX写三维程序的时候, 都有一种隔靴搔痒的感觉, 对于内部的三维算法的实现不甚了解. 其 ...
- 【sql注入】简单实现二次注入
[sql注入]简单实现二次注入 本文转自:i春秋社区 测试代码1:内容详情页面 [PHP] 纯文本查看 复制代码 01 02 03 04 05 06 07 08 09 10 11 12 13 14 1 ...
- VC6下OpenGL 开发环境的构建外加一个简单的二维网络棋盘绘制示例
一.安装GLUT 工具包 GLUT 不是OpenGL 所必须的,但它会给我们的学习带来一定的方便,推荐安装. Windows 环境下的GLUT 本地下载地址:glut-install.zip(大小约为 ...
- Java秒杀简单设计二:数据库表和Dao层设计
Java秒杀简单设计二:数据库表Dao层设计 上一篇中搭建springboot项目环境和设计数据库表 https://www.cnblogs.com/taiguyiba/p/9791431.html ...
随机推荐
- oracle ceil函数
ceil和floor函数在一些业务数据的时候,有时还是很有用的. ceil(n) 取大于等于数值n的最小整数: floor(n)取小于等于数值n的最大整数 如下例子 SQL> select ce ...
- Visual Studio 2017 and Swagger: Building and Documenting Web APIs
Swagger是一种与技术无关的标准,允许发现REST API,为任何软件提供了一种识别REST API功能的方法. 这比看起来更重要:这是一个改变游戏技术的方式,就像Web服务描述语言一样WSDL( ...
- [离散时间信号处理学习笔记] 7. z变换
z变换及其收敛域 回顾前面的文章,序列$x[n]$的傅里叶变换(实际上是DTFT,由于本书把它叫做序列的傅里叶变换,因此这里以及后面的文章也统一称DTFT为傅里叶变换)被定义为 $X(e^{j\ome ...
- 使用Promise解决多层异步调用的简单学习【转】
前言 本文章转载文章: https://www.jianshu.com/p/29da9aef4c1c 第一次接触到Promise这个东西,是2012年微软发布Windows8操作系统后抱着作死好奇的心 ...
- GitHub大佬:供计算机学习鉴黄功能的图片数据库
ps:学无止境 想要构建一套鉴黄系统,必须有大量的真实图片供计算机进行学习,以便于区分开正常图片和黄色图片. 近期有位加拿大程序员在Github上传了图片列表,里面包含了大量图片地址可以供计算机进行学 ...
- Go语言类型的本质
如果给这个类型增加或者删除某个值,是要创建一个新值,还是要更改当前的值? 如果是要创建一个新值,该类型的方法就使用值接收者. 如果是要修改当前值,就使用指针接收者. 这个答案也会影响程序内部传递这个类 ...
- kubernetes 容器挂载 ceph rbd 卷的平滑扩容方法
https://blog.csdn.net/aixiaoyang168/article/details/79120095
- hdu 2955 Robberies (01背包)
链接:http://acm.hdu.edu.cn/showproblem.php?pid=2955 思路:一开始看急了,以为概率是直接相加的,wa了无数发,这道题目给的是被抓的概率,我们应该先求出总的 ...
- 微信小程序API 文档快速参考索引
内容那么多,这个页面到底做了什么? 第一:解决微信文档APi文档使用不便: 第二:解决了内容搜索与索引:—— 最好是写成全文索引文档,但是比较需要时间,而且更新是一件麻烦的事:所以以下是直接 连接官网 ...
- ZOJ 3846 GCD Reduce//水啊水啊水啊水
GCD Reduce Time Limit: 2 Seconds Memory Limit: 65536 KB Special Judge You are given a sequ ...