机器学习--Logistic回归

logistic回归

很多时候我们需要基于一些样本数据去预测某个事件是否发生，如预测某事件成功与失败，某人当选总统是否成功等。

这个时候我们希望得到的结果是 bool型的,即 true or false

我们最先想到的是通过最小二乘法求出线性回归模型，

即 Y = W^TX = w₀x₀+ w₁x₁+ w₂x₂+ ... + w_nx_n

X表示自变量向量，可以通过随机梯度算法求出上述的系数向量W

此时Y表示线性回归的预测值。

这时存在的问题是：

Y表示的是预测值，但是其可正，可负，可以很大，可以很小，我们无法通过Y得出二进制的结果

为了解决上面的问题，我们可以大胆假设该事件发生的概率的p且 logit(p) = Y

logit(p) 是一个统计学上的模型

由logit (p ) = Y求得

画图如下:

我们可以看出，对于任意的Y值，假设的概率值p都分布在[0，1]之间

这样我们可以规定任何p大于0.5的数据被分入1类，小于0.5被归入0类，从而得到bool型的结果

事实证明，上述的logit(p) 模型，在处理这种二分类预测中非常有用

这便是logistic回归

用logistic回归预测实例

数据集来源: http://archive.ics.uci.edu/ml/datasets/Haberman%27s+Survival

数据集说明：

该数据集包含了1958年-1970年在芝加哥大学的比林斯医院接受过乳房癌症手术的病人的存活率。数据集样例如下：

X1: 手术时病人年龄
X2: 患者手术年(年- 1900年)
X3: 检测阳性腋窝淋巴结数目(数值)
X4: 生存状态(class属性)1--患者活了5年或更长 , 0---病人在5年内死亡。

求当一个病人的数据为[X1,X2,X3] = [34,66,9]时我们可以通过logistic回归预测病人手术后是否有可能活过5年？

代码

 # -*- coding:utf-8 -*-

 import numpy as np

 def load_data(file_name):

     # 载入数据

     data_mat = []

     labels = []

     with open(file_name) as file:

         for line in file.readlines():

             line_arr = line.strip().split(',')

             data_mat.append([float(line_arr[0]), float(line_arr[1]), float(line_arr[2])])

             labels.append(int(line_arr[3]))

     return data_mat, labels

 def sigmoid(x):

     # 阶跃函数

     if -x > np.log(np.finfo(type(x)).max):

         return 0.0

     else:

         return 1.0 / (1 + np.exp(-x))

 def grad_ascent(data_mat, data_labels, num_iter=200):

     """随机梯度上升算法"""

     data_mat = np.array(data_mat)

     m, n = np.shape(data_mat)

     weights = np.ones(n).astype(np.float)

     for j in range(num_iter):

         data_index = list(range(m))

         for i in range(m):

             alpha = 0.001 + 4 / (1.0 + j + i)

             random_index = int(np.random.uniform(0, len(data_index)))

             h = sigmoid(sum(data_mat[random_index] * weights))

             error = data_labels[random_index] - h

             weights = weights + alpha * error * data_mat[random_index]

             del (data_index[random_index])

     return weights

 def test(x, name):

     file_name = name

     data_mat, labels = load_data(file_name)

     weights = grad_ascent(data_mat, labels)

     print(weights)

     res = classify_vector(x, weights)

     print(res)

 def classify_vector(inx, weights):

     prob = sigmoid(sum(inx * weights))

     if prob > 0.5:

         return 1.0

     else:

         return 0.0

 name = 'data/haberman.txt'

 test([72, 63, 0], name)

执行结果为 0

说明改病人很可能术后活不过5年。

以上只是logistic 回归的一个简单测试，所有代码已上传 https://github.com/beiyan1911/machine_learning/tree/master/logistic_reg

机器学习--Logistic回归的更多相关文章

机器学习——Logistic回归
1.基于Logistic回归和Sigmoid函数的分类 2.基于最优化方法的最佳回归系数确定 2.1 梯度上升法参考:机器学习--梯度下降算法 2.2 训练算法:使用梯度上升找到最佳参数 Logis ...
机器学习——Logistic回归
参考<机器学习实战> 利用Logistic回归进行分类的主要思想: 根据现有数据对分类边界线建立回归公式,以此进行分类. 分类借助的Sigmoid函数: Sigmoid函数图: Sigmo ...
机器学习——logistic回归，鸢尾花数据集预测，数据可视化
0.鸢尾花数据集鸢尾花数据集作为入门经典数据集.Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理.Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集.数据集包含150个数 ...
coursera机器学习-logistic回归，正则化
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
机器学习 Logistic 回归
Logistic regression 适用于二分分类的算法,用于估计某事物的可能性. logistic分布表达式 $ F(x) = P(X<=x)=\frac{1}{1+e^{\frac{-( ...
机器学习-- Logistic回归 Logistic Regression
转载自:http://blog.csdn.net/linuxcumt/article/details/8572746 1.假设随Tumor Size变化,预测病人的肿瘤是恶性(malignant)还是 ...
吴恩达-机器学习+Logistic回归分类方案
机器学习简易入门（四）- logistic回归
摘要:使用logistic回归来预测某个人的入学申请是否会被接受声明:(本文的内容非原创,但经过本人翻译和总结而来,转载请注明出处) 本文内容来源:https://www.dataquest.io/ ...
机器学习(4)之Logistic回归
机器学习(4)之Logistic回归 1. 算法推导与之前学过的梯度下降等不同,Logistic回归是一类分类问题,而前者是回归问题.回归问题中,尝试预测的变量y是连续的变量,而在分类问题中,y是一 ...

随机推荐

saltstack学习之一：服务架构以及相关配置安装运行
概要 saltstack是基于Python开发的C/S架构的一款批量管理工具,底层采用动态的连接总线(ZeroMQ消息队列pub/sub方式通信),使用ssl证书签发的方式进行认证管理,使其可以用于编 ...
java 变量及数据类型、原码、反码、补码
Java基础——变量及数据类型变量的概念内存中的一个存储区域变量名+数据类型可在同一类型范围内不断变化为什么定义变量: 用于不断的存放同一类型的常量,并可以重复使用使用变量注意: 变量的作 ...
ajax返回json时，js获取类型，是字符串类型
ajax向php服务端请求,并返回json串给前端. js发现得到的返回值的类型是字符串,不能直接取json对象属性,需要JSON.parse(). 怎么解决呢? 这需要在php返回json时,加上一 ...
上传头像，layui上传图片
layui上传与bootstrap上传相似,只是不需要下插件, layui自带的已够用先看一下前台界面,这里是用到的上传头像先点击开始上传,头像上传至服务器中, 返回json添加至form表单中, ...
SQL Server 中用DBCC Opentran语句查看未关闭的事务（转载）
从SQL Server 2008开始,可以使用DBCC Opentran语句查看数据库中最早一个没有被关闭的事务,下面这篇文章讲述了如何使用DBCC Opentran语句. An Open trans ...
DNS 协议
DNS 入门域名系统(英文:Domain Name System,缩写:DNS)是互联网的一项服务.它作为将域名和 IP 地址相互映射的一个分布式数据库,能够使人更方便地访问互联网.DNS 使用 T ...
UOJ347 WC2018 通道边分治、虚树
传送门毒瘤数据结构题qwq 设三棵树分别为$T1,T2,T3$ 先将$T1$边分治,具体步骤如下: ①多叉树->二叉树,具体操作是对于每一个父亲,建立与儿子个数相同的虚点,将父亲与这些虚点穿成 ...
PMS-授权中心
概述授权中心用基于角色的访问控制思想(RBAC-Role Based Access Control)来实现各个业务系统的功能权限及数据权限控制.功能权限是指能否进入页面及使用页面上的操作.数据权限控 ...
DataWorks使用小结（一）——概述
一.概述 DataWorks数据工场,是MaxComputer的可视化开发平台,一站式开发.管理界面 1.功能概述 1.强大调度:支持分钟到月的调度 2.多种任务:支持ODPS.SHELL等多种任务 ...
绍一集训Round#1
到了之后看题,T1一看发现真熟悉,和之前做的一道题真的像,然后内心: 这里是绍一啊,不可能就出这么简单的题我题意没理解错啊,这不是单独计算每条边的贡献么维护一个人数的大小,然后直接搞一波就可以了吧 ...

机器学习--Logistic回归

机器学习--Logistic回归的更多相关文章

随机推荐

热门专题