Logistic 回归-原理及应用
公号:码农充电站pro
主页:https://codeshellme.github.io
上一篇文章介绍了线性回归模型,它用于处理回归问题。
这次来介绍一下 Logistic 回归,中文音译为逻辑回归,它是一个非线性模型,是由线性回归改进而来(所以逻辑回归的名字中带有“回归”二字)。
虽然 Logistic 回归的名字中也有回归二字,但是该算法并非用于回归问题,而是用于处理分类问题,主要用于处理二分类问题,也可以用于处理多分类问题。
1,Logistic 回归模型
Logistic 回归模型将一个事件出现的概率适应到一条S 型曲线上,这条曲线称为 Logistic 曲线。
Logistic 回归函数也叫做 Sigmoid 函数,其基本形式如下:

其中:
- g(z) 的范围为 (0, 1)
- z 的范围为 (-∞, +∞)
g(z) 公式中的自变量 z 就是我们之前介绍的线性模型公式:

2,画出 Logistic 曲线
NumPy 库中的 linspace(start, stop, num) 方法在 [start, stop] 范围内生成 num 个等距的数字,比如:
>>> import numpy as np
>>>
>>> np.linspace(2.0, 3.0, num=5) # 在[2.0, 3.0] 范围生成 5 个数字
array([2. , 2.25, 2.5 , 2.75, 3. ])
>>>
>>> np.linspace(2.0, 3.0, num=6) # 在[2.0, 3.0] 范围生成 6 个数字
array([2. , 2.2, 2.4, 2.6, 2.8, 3. ])
为了画出 Logistic 曲线,定义 x,y 如下:
x = np.linspace(-10, 10, 1000) # 在[10, -10] 范围生成 1000 个数字
y = [1/(1+np.exp(-i)) for i in x] # 根据 Sigmoid 函数求出 y
用 Matplotlib 画出折线图:
import matplotlib.pyplot as plt
plt.plot(x, y)
plt.show()
S 型曲线如下:

其中橙色的直线是我添加上去的。从上图可以直观的看出S 型曲线的走势,当 x 值在 [-6, 6] 之外时,y 的值变化非常小。
将 Logistic 回归用于二分类问题时,分类为 0 和 1,当 g(z) 大于0.5 时,归入1 类;当 g(z) 小于0.5 时,归入0 类。
3,Logistic 回归的实现
sklearn 库中的 LogisticRegression 类是Logistic 回归的实现。
LogisticRegression 类的原型如下:
LogisticRegression(penalty='l2',
dual=False, tol=0.0001, C=1.0,
fit_intercept=True, intercept_scaling=1,
class_weight=None, random_state=None,
solver='lbfgs', max_iter=100,
multi_class='auto', verbose=0,
warm_start=False, n_jobs=None,
l1_ratio=None)
来看下其中比较重要的几个参数:
- penalty:惩罚项,可取的值有
l1,l2,elasticnet,none,默认为l2。l2:当模型参数满足高斯分布的时候,使用l2。支持l2的优化方法有newton-cg,sag和lbfgs。l1:当模型参数满足拉普拉斯分布的时候,使用l1。在0.19 版本中,sag支持l1。elasticnet:仅liblinear支持elasticnet。none:表示不使用正则化(liblinear不支持)。
- solver:代表的是逻辑回归损失函数的优化方法。有 5 个参数可选,分别为:
liblinear:coordinate descent (CD),坐标下降法。适用于数据量小的数据集。lbfgs:为默认值,在0.22 版本中改为liblinear。newton-cg:牛顿CG法。sag:平均梯度下降法,适用数据量大的数据集。saga:随机平均梯度下降法,适用数据量大的数据集。
- max_iter:算法收敛的最大迭代次数,默认为 10。
- n_jobs:拟合和预测的时候 CPU 的核数,默认是 1。
关于上面的一些参数,也可以参考这里。
4,对鸢尾花数据集进行分类
下面我们使用 Logistic 回归对鸢尾花数据集进行分析。
首先加载数据集:
from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)
构建 Logistic 回归模型:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression() # 创建对象
clf.fit(X, y) # 拟合模型
对模型的准确率进行评分:
>>> clf.score(X, y)
0.97
可以看到,用 Logistic 回归对鸢尾花数据集进行分类,最终的准确率为 97%,可见效果还是不错的。
5,Logistic 回归处理多分类
Logistic 回归多用于二分类问题,但也可以用于多分类,就像上面对鸢尾花数据集的分析。要让 Logistic 回归处理多分类问题,就要做出一些改进。
一种改进方式是通过多次二分类实现多分类的目的。假如一个数据集有 N 个分类,那就需要训练 N 个二分类模型。对于一个新的特征数据,就需要用这 N 个分类器都对其进行处理,最终选择概率最大的那个分类作为多分类的结果。
另一种方法是将 Logistic 回归改进为 Softmax 回归,Softmax 回归给出的是实例在每一种分类下出现的概率,从而处理多分类任务。
6,总结
Logistic 回归模型是线性回归的改进,用于处理分类问题。实际应用中,Logistic 回归广泛用于广告系统预估点击率,生物统计等领域。
(本节完。)
推荐阅读:
欢迎关注作者公众号,获取更多技术干货。

Logistic 回归-原理及应用的更多相关文章
- 机器学习(1):Logistic回归原理及其实现
Logistic回归是机器学习中非常经典的一个方法,主要用于解决二分类问题,它是多分类问题softmax的基础,而softmax在深度学习中的网络后端做为常用的分类器,接下来我们将从原理和实现来阐述该 ...
- logistic回归原理和公式
转自:http://blog.csdn.net/ariessurfer/article/details/41310525 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素 ...
- Logistic回归原理及公式推导[转]
原文见 http://blog.csdn.net/acdreamers/article/details/27365941 Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素 ...
- 转载:Logistic回归原理及公式推导
转载自:AriesSurfer 原文见 http://blog.csdn.NET/acdreamers/article/details/27365941 Logistic回归为概率型非线性回归模型,是 ...
- 【机器学习实战】第5章 Logistic回归
第5章 Logistic回归 Logistic 回归 概述 Logistic 回归虽然名字叫回归,但是它是用来做分类的.其主要思想是: 根据现有数据对分类边界线建立回归公式,以此进行分类. 须知概念 ...
- 05机器学习实战之Logistic 回归
Logistic 回归 概述 Logistic 回归 或者叫逻辑回归 虽然名字有回归,但是它是用来做分类的.其主要思想是: 根据现有数据对分类边界线(Decision Boundary)建立回归公式, ...
- logistic回归和线性回归
1.输出: 线性回归输出是连续的.具体的值(如具体房价123万元) 回归 逻辑回归的输出是0~1之间的概率,但可以把它理解成回答“是”或者“否”(即离散的二分类)的问题 分类 2.假设函数 线性回归: ...
- 【机器学习实战】第5章 Logistic回归(逻辑回归)
第5章 Logistic回归 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/ ...
- 【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】(Python版)
目录 Logistic回归原理 Logistic回归代码(Spark Python) Logistic回归原理 详见博文:http://www.cnblogs.com/itmorn/p/7890468 ...
随机推荐
- Folx使用教程:怎么通过设置标签分类下载内容
很多Mac OS下载软件从网上下载各种各样的文件,一般默认都会存放在"下载"文件夹中.如果不是经常整理"下载"文件夹,久而久之,该文件夹会变得庞大而杂乱. 如果 ...
- MySQL开发篇(未完待续)
一.索引 什么是索引? 索引是帮助Mysql提高获取数据的数据结构,换一句话讲就是"排好序的快速查找的数据结构". 1.索引的分类 MySQL主要的几种索引类型:1.普通索引.2. ...
- 再也不用担心问RecycleView了——面试真题详解
关于RecycleView,之前我写过一篇比较基础的文章,主要说的是缓存和优化等问题.但是有读者反映问题不够实际和深入.于是,我又去淘了一些关于RecycleView的面试真题,大家一起看看吧,这次的 ...
- day008|python之函数
函数 目录 函数 1 Type hinting 2 函数参数 2.1 概述 2.2 参数详解 2.3 参数的使用 2.4 可变长函数-->*与**的应用 2.6 命名关键字形参 3 函数对象 3 ...
- 【HAOI2015】树上操作
(题面来自洛谷) 题目描述 有一棵点数为 N 的树,以点 1 为根,且树点有边权.然后有 M 个操作,分为三种: 操作 1 :把某个节点 x 的点权增加 a . 操作 2 :把某个节点 x 为根的子树 ...
- Eclipse中自动生成局部变量
方法调用后,返回值自动赋值到一个新的局部变量中: (1)鼠标放到方法上,点击Ctrl+1 (2)选择 :Assign statement to new local variable(将语句赋给新的局部 ...
- java类,函数传参
1 package 传参练习; 2 //学生姓名组成的数组:指定区间和查找的名字返回此人是否存在(如果存在返回位置否则-1) 3 public class test1 { 4 public stati ...
- 死磕以太坊源码分析之Fetcher同步
死磕以太坊源码分析之Fetcher同步 Fetcher 功能概述 区块数据同步分为被动同步和主动同步: 被动同步是指本地节点收到其他节点的一些广播的消息,然后请求区块信息. 主动同步是指节点主动向其他 ...
- JZOJ 【NOIP2016提高A组集训第16场11.15】SJR的直线
JZOJ [NOIP2016提高A组集训第16场11.15]SJR的直线 题目 Description Input Output Sample Input 6 0 1 0 -5 3 0 -5 -2 2 ...
- ES6 代码转成 ES5 代码的实现思路是什么(来自github每日一题)
将代码字符串解析成抽象语法树,即所谓的 AST 对 AST 进行处理,在这个阶段可以对 ES6 代码进行相应转换,即转成 ES5 代码 根据处理后的 AST 再生成代码字符串 每日一题https:// ...