scikit_learn逻辑回归类库

1.概述

　　在scikit-learn中，与逻辑回归有关的主要有3个类。LogisticRegression, LogisticRegressionCV 和 logistic_regression_path。其中LogisticRegression 和 LogisticRegressionCV的主要区别是LogisticRegressionCV使用了交叉验证来选择正则化系数C。而LogisticRegression需要自己每次指定一个正则化系数。除了交叉验证，以及选择正则化系数C以外，LogisticRegression 和 LogisticsRegressionCV的使用方法基本相同。

　　logistic_regression_path类则比较特殊，它拟合数据后，不能直接来做预测，只能为拟合数据选择合适逻辑回归的系数和正则化系数。主要是用在模型选择的时候，一般情况用不到这个类，所以后面不再讲述logistic_regression_path类。

　　此外，scikit-learn里面有个容易让人误解的类RandomizedLogisticRegression，虽然名字里有逻辑回归的词，但是主要是用L1正则化的逻辑回归来做特征选择的，属于维度规约的算法类，不属于常说的分类算法范畴。

　　后面主要说LogisticRegression 和 LogisticRegressionCV中的参数，这些参数在两个类中意义一样。

2.正则化选择参数：penalty

　　LogisticRegression 和 LogisticsRegressionCV 默认带了正则化项。penalty参数可以选择的值为“l1”和“l2”，分别对应L1的正则化和L2的正则化，默认是L2的正则化。

　　在调参时如果我们主要的目的只是为了解决过拟合，一般penalty选择L2正则化就够了。但是如果算则L2正则化发现还是过拟合，即预测效果差的时候就考虑L1正则化。另外，如果模型的特征非常多，我们希望一些不重要的特征系数归0，从而让模型系数系数化的话，也可以使用L1正则化。

　　penalty参数的选择会影响我们损失函数优化算法的选择。即参数solver的选择，如果是L2正则化，那么4种可选的算法{‘newton-cg’, 'lbfgs', 'liblinear', 'sag'}都可以选择。但是如果penalty是L1正则化的话，就只能选择'liblinear'了。这是因为L1正则化的损失函数不是连续可导的，而{'newton-cg', 'lbfgs', 'sag'}这三种优化算法时都需要损失函数的一阶或者二阶连续可导。而'liblinear'并没有这个依赖。

3.优化算法选择参数：sovler

　　solver参数决定了我们对逻辑回归损失函数的优化方法，有4中，分别为：

　　liblinear：使用了开源的liblinear库实现，内部使用了坐标下降法来迭代优化损失函数。
　　lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
　　newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
　　sag：即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。

　　从上面的描述可以看出，newton-cg， lbfgs 和 sag这三种优化算法时都需要损失函数的一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear通吃L1正则化和L2正则化。

　　同时，sag每次仅仅使用了部分样本进行梯度迭代，所以当样本量少的时候不要选择它，而如果样本量非常大，比如大于10万，sag是第一选择。但是sag不能用于L1正则化，所以当你有大量的样本，又需要L1正则化的话就要自己作取舍。要么通过对样本采样来降低样本量，要么回到L2正则化。

　　从上面的描述，大家可能觉得，既然newton-cg, lbfgs, sag 这么多限制，如果不是大样本，我们选择 liblinear 不就行了嘛！错，因为liblinear也有自己的弱点！我们知道，逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有 one-vs-rest(OvR) 和 many-vs-many(MvM) 两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持 OvR，不支持MvM，这样如果我们需要相对精确的多元逻辑回归时，就不要选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化。

4.分类方式选择参数：multi_class

　　multi_class参数决定了我们分类方式的选择，有ovr和multinomial两个值可以选择，默认是ovr。

　　ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归，ovr和multinomial并没有任何区别，区别主要在多元逻辑回归上。

　　ovr的思想很简单，无论你是多少元逻辑回归，我们都可以看做二元逻辑回归。具体做法是，对于第K类的分类决策，我们把所有第K类的样本作为正例，除了第K类样本以外的所有样本都作为负例，然后在上面做二元逻辑回归，得到第K类的分类模型。其他类的分类模型获得以此类推。

　　而MvM则相对复杂，这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类，我们每次在所有的T类样本里面选择两类样本出来，不妨记为T1类和T2类，把所有的输出为T1和T2的样本放在一起，把T1作为正例，进行二元逻辑回归，得到模型参数。我们一共需要T(T-1)/2分类。

　　从上面的描述可以看出ovr相对简单，但分类效果相对略差（这里大多数样本分布情况，某些样本分布下ovr可能更好）。而MvM分类相对精确，但是分类速度没有ovr快。

　　如果选择ovr，则4种损失函数的优化方法liblinear, newton-cg, lbfgs, sag都可以选择。但是如果选择了multinomial, 则只能选择newton-cg, lbfgs, sag了。

5.类型权重参数：class_weight

　　class_weight参数用于标示分类模型中各种类型的权重，可以不输入，既不考虑权重，或者说所有类型的权重一样。如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者我们自己输入各个类型的权重，比如对于0，1的二元模型，我们可以定义class_weight={0:0.9, 1:0.1}，这样类型0的权重为90%，而类型1的权重为10%。

　　如果class_weight选择balanced，那么类库会根据训练样本来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高。

　　那么class_weight有什么作用？在分类模型中，我们经常会遇到两类问题：

　　第一种是误差分类代价很高。比如对合法用户和非法用户进行分类，将非法用户分类为合法用户的代价很高，我们宁愿将合法分类为非法用户，这时可以人工再甄别，但是却不愿将非法用户分类为合法用户。这时，我们可以适当提高非法用户的权重。

　　第二种是样本高度失衡的，比如我们有合法用户和非法用户的二元样本数据10000条，里面合法用户9995条，非法用户只有5条，如果我们不考虑权重，则我们可以将所有的测试集都预测为合法用户，这样预测准确率理论上有99.95%，但是去没有任何意义。这时，我们选择balanced，让类库自动提高非法用户样本权重。

　　提高了某种分类的权重，相比不考虑权重，会有更多的样本分类划分到高权重的类别，从而解决了上面两类为题。

　　当然，对于第二种样本失衡的情况，我们还可以考虑用样本权重参数：sample_weight，而不使用class_weight。

6.样本权重参数：sample_weight

　　上一节我们提到了样本不失衡的问题，由于样本不平衡，导致样本不是总体样本的无偏估计，从而可能导致我们的模型预测能力下降。遇到这种情况，我们可以通过调节样本权重来尝试解决这个问题。调节样本权重的方法有两种，第一种是在class_weight使用balanced。第二种是在调用fit函数时，通过sample_weight来自己调节每个样本权重。

　　在scikit_learn做逻辑回归时，如果上面两种方法都用到了，那么样本的真正权值是class_weight*sample_weight。

　　以上就是scikit_learn中逻辑回归类库调参的一个小结，还有些参数比如正则化参数C（交叉验证就是Cs），迭代次数max_iter等，由于和其他的算法类库并没有特别不同，这里不多介绍。

scikit_learn逻辑回归类库的更多相关文章

scikit-learn 逻辑回归类库使用小结
之前在逻辑回归原理小结这篇文章中,对逻辑回归的原理做了小结.这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结.重点讲述调参中要注意的事项. 1. 概述在scikit-lear ...
Sklearn实现逻辑回归
方法与参数 LogisticRegression类的各项参数的含义 class sklearn.linear_model.LogisticRegression(penalty='l2', dual=F ...
逻辑回归（Logistic Regression）算法小结
一.逻辑回归简述: 回顾线性回归算法,对于给定的一些n维特征(x1,x2,x3,......xn),我们想通过对这些特征进行加权求和汇总的方法来描绘出事物的最终运算结果.从而衍生出我们线性回归的计算公 ...
通俗地说逻辑回归【Logistic regression】算法（二）sklearn逻辑回归实战
前情提要: 通俗地说逻辑回归[Logistic regression]算法(一) 逻辑回归模型原理介绍上一篇主要介绍了逻辑回归中,相对理论化的知识,这次主要是对上篇做一点点补充,以及介绍sklear ...
sklearn逻辑回归(Logistic Regression,LR)调参指南
python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_ca ...
sklearn逻辑回归(Logistic Regression)类库总结
class sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_inter ...
随机逻辑回归random logistic regression-特征筛选
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
逻辑回归原理_挑战者飞船事故和乳腺癌案例_Python和R_信用评分卡（AAA推荐）
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&a ...
逻辑回归2-scikit-learn参数介绍
1.1 scikit-learn参数介绍 1.1.1 导入 from sklearn.linear_model import LogisticRegression 1.1.2 版本 sci ...

随机推荐

一位前辈的博客，收获颇丰，包括Android、Java、linux、前端、大数据、网络安全等等
https://www.cnblogs.com/lr393993507/ 魔流剑
EDK II之USB主控制器(EHCI)驱动的实现框架
本文简要介绍一下UEFI中EHCI驱动的代码实现框架: 下图是HCDI: 上图是Host驱动程序向上层驱动提供的接口图: 1.大部分接口的最后动作都是去操作主控制器寄存器,ECHI的spec:< ...
c++ STL中的set和multiset
1.结构 set和multiset会根据特定的排序原则将元素排序.两者不同之处在于,multisets允许元素重复,而set不允许重复. set中的元素可以是任意类型的,但是由于需要排序,所以元素必须 ...
Fiddler抓取指定域名
有时候我们抓取app软件的包时,其他很多软件进程的请求会造成干扰这时我们就需要过滤只抓取我们需要域名的包切换到Fiddler右侧窗口的Filters选项卡,勾选顶部的Use Filters,找到H ...
C#.Net环境下的缓存技术
转载:https://www.cnblogs.com/lvjy-net/p/8297679.html 一.缓存技术本节将介绍以下技术: 使用Asp.Net缓存: 使用Remoting Singleto ...
python简说（十五）MD5加密
def my_md5(s): news = str(s).encode() m = hashlib.md5(news) return m.hexdigest()
<线程池-定时任务> ScheduledExecutorService之shutdown引发的RejectedExecutionException问题
一. 问题描述先来看一下异常信息,启动tomcat时就报错: 2015-3-20 15:22:39 org.apache.catalina.core.StandardContext listener ...
20165310 NstSec2019 Week3 Exp1 逆向与Bof基础
20165310 NstSec2019 Week3 Exp1 逆向与Bof基础一.实验内容实验目标本次实践的对象是一个名为pwn1的linux可执行文件. 该程序正常执行流程是:main调用fo ...
20145311王亦徐《网络对抗技术》 MSF基础应用
20145311王亦徐 <网络对抗技术> MSF基础应用实验内容掌握metasploit的基本应用方式以及常用的三种攻击方式的思路主动攻击,即对系统的攻击,不需要被攻击方配合,以ms ...
C# 文件与二进制之间的转换
/// <summary> /// 工具类:文件与二进制流间的转换 /// </summary> public class FileBinaryConvertHelper { ...

scikit_learn逻辑回归类库

scikit_learn逻辑回归类库的更多相关文章

随机推荐

热门专题