机器学习：逻辑回归（scikit-learn 中的逻辑回归）

一、基础理解

使用逻辑回归算法训练模型时，为模型引入多项式项，使模型生成不规则的决策边界，对非线性的数据进行分类；

问题：引入多项式项后，模型变的复杂，可能产生过拟合现象；

方案：对模型正则化处理，损失函数添加正则项（αL₂），生成新的损失函数，并对新的损失函数进行优化；

优化新的损失函数：

满足了让原来的损失函数尽量的小；
另一方面，对于 L₂ 正则项（包含参数 θ 值），限制 θ 的大小；
引入了参数 α ，调节新的损失函数中两部分（原损失函数和 L₂ 正则项）的重要程度；当然也可以引入 αL₁ 正则项；

二、正则化的其它方式

新的表达正则化的方式：只是方式不同，正则化的原来一样；

改变了超参数的位置：α、C；
如果超参数 C 越大，原损失函数 J(θ) 的地位相对较重要，优化损失函数时主要集中优化 J(θ) ，使其减少到最小；
如果超参数 C 非常小，正则项 L₂ 的地位相对较重要，优化损失函数时主要集中优化 L₂ ，使参数 θ 中的元素尽量的小；
如果想让使正则项不重要，需要增大参数 C；

其实在 J(θ) 前加参数 C，相当于将原来的 αL₂ 变为 1/αL₂ ，两中方式等效；

α、C：平衡新的损失函数中两部分的关系；

在逻辑回归、SVM算法中，更偏好使用 C.J(θ) + L₂ 的方式；scikit-learn 的逻辑回归算法中，也是使用此方式；

原因：使用 C.J(θ) + L₂ 方式时，正则项的系数为 1，也就是说优化算法模型时不得不使用正则化；

三、思考

多项式回归：假设在特征空间中，样本的分布规律呈多项式曲线状态，可能类似 2 次多项式曲线，也可能是 3 次多项式的曲线，也可能是 n 次多项式的曲线；

n 次多项式曲线：y = xⁿ + ...，最高 n 次方，还有其他很多项，x 与 y 的关系曲线；

疑问1：是不是二维空间的所有不规则曲线都存在一个多项式与其对应？

疑问2：如果样本分布规律不是多项式曲线的规律，再使用多项式回归算法，或者逻辑回归的多项式形式进行分类，是不是就不准确？

思考：解决具体的问题，通过可视化查看样本相根据特征大致的分布，再判断可以使用哪些算法，组个尝试，找个最合适的一个；

最合适：准确度高、效率高；

四、实例scikit-learn中的逻辑回归算法

scikit-learn中的逻辑回归算法自动封装了模型的正则化的功能，只需要调整 C 和 penalty；
主要参数：degree、C、penalty；（还有其它参数）

　1）直接使用逻辑回归算法

import numpy as np

import matplotlib.pyplot as plt

np.random.seed(666)

X = np.random.normal(0, 1, size=(200, 2))

y = np.array(X[:,0]**2 + X[:,1] < 1.5,dtype='int')

# 随机抽取 20 个样本，让其分类为 1，相当于认为更改数据，添加噪音

for _ in range(20):

    y[np.random.randint(200)] = 1

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

为虚拟的测试数据设置种子 666：则每次执行 np.random.normal(0, 1, size=(200, 2)) 时，随机生成的 X 不变；
随机生成数据是系统内定的，随机种子是系统随机生成数据时的依据，只要设定的随机种子相同，所有人生成的数据一样；（待考察）

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)

# LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,

          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,

          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,

          verbose=0, warm_start=False)

C=1.0：默认超参数 C 的值为1.0；
penalty='l2'：默认使用 L2 正则项；

def plot_decision_boundary(model, axis):

    x0, x1 = np.meshgrid(

        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1,1),

        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1,1)

    )

    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)

    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap

    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])

    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

plot_decision_boundary(log_reg, axis=[-4, 4, -4, 4])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

　2）为逻辑回归算法的模型添加多项式项

degree = 2、C 默认1.0

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import PolynomialFeatures

from sklearn.preprocessing import StandardScaler

def PolynomialLogisticRegression(degree):

    return Pipeline([

        ('poly', PolynomialFeatures(degree=degree)),

        ('std_scaler', StandardScaler()),

        ('log_reg', LogisticRegression())

    ])

# 使用管道时，先生成实例的管道对象，在进行 fit；

poly_log_reg = PolynomialLogisticRegression(degree=2)

poly_log_reg.fit(X_train, y_train)

plot_decision_boundary(poly_log_reg, axis=[-4, 4, -4, 4])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

degree = 20、C 默认1.0

poly_log_reg2 = PolynomialLogisticRegression(degree=20)

poly_log_reg2.fit(X_train, y_train)

plot_decision_boundary(poly_log_reg2, axis=[-4, 4, -4, 4])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

degree = 20、C = 0.1

def PolynomialLogisticRegression(degree, C):

    return Pipeline([

        ('poly', PolynomialFeatures(degree=degree)),

        ('std_scaler', StandardScaler()),

        ('log_reg', LogisticRegression(C=C))

    ])

poly_log_reg3 = PolynomialLogisticRegression(degree=20, C=0.1)

poly_log_reg3.fit(X_train, y_train)

plot_decision_boundary(poly_log_reg3, axis=[-4, 4, -4, 4])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

degree = 20、C = 0.1、penalty = 'L1'（penalty：正则项类型，默认为 L2）

def PolynomialLogisticRegression(degree, C, penalty='l2'):

    return Pipeline([

        ('poly', PolynomialFeatures(degree=degree)),

        ('std_scaler', StandardScaler()),

        ('log_reg', LogisticRegression(C=C, penalty=penalty))

    ])

poly_log_reg4 = PolynomialLogisticRegression(degree=20, C=0.1, penalty='l1')

poly_log_reg4.fit(X_train, y_train)

plot_decision_boundary(poly_log_reg4, axis=[-4, 4, -4, 4])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

分析：degree = 20，模型的决策边界太复杂，模型可能过拟合，使用 L1 正则项进行模型的正则化；
分析2：模型过拟合后，有很多多项式项，使用 L1 正则项，使得这些多项式项的系数为 0，进而使模型决策边界更加规则，不会弯弯曲曲，便于可视化；

机器学习：逻辑回归（scikit-learn 中的逻辑回归）的更多相关文章

(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
Andrew Ng机器学习课程笔记（二）之逻辑回归
Andrew Ng机器学习课程笔记(二)之逻辑回归版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364636.html 前言 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
机器学习之感知器和线性回归、逻辑回归以及SVM的相互对比
线性回归是回归模型感知器.逻辑回归以及SVM是分类模型线性回归:f(x)=wx+b 感知器:f(x)=sign(wx+b)其中sign是个符号函数,若wx+b>=0取+1,若wx+b< ...
SQL Server 中的逻辑读与物理读
首先要理解逻辑读和物理读: 预读:用估计信息,去硬盘读取数据到缓存.预读100次,也就是估计将要从硬盘中读取了100页数据到缓存. 物理读:查询计划生成好以后,如果缓存缺少所需要的数据,让缓存再次去读 ...
SQL SERVER中的逻辑读取，物理读取，以及预读的理解
在SQLSERVER查询分析器中,当我们用Set Statistics on 语句来统计SQL语句或者存储过程I/O的时候, SQLSERVER会显示几个概念去词语:逻辑读取,物理读取,预读. 如下: ...
WPF中的逻辑树和可视化树
WPF中的逻辑树是指XAML元素级别的嵌套关系,逻辑树中的节点对应着XAML中的元素. 为了方便地自定义控件模板,WPF在逻辑树的基础上进一步细化,形成了一个“可视化树(Visual Tree)”,树 ...
Linux中对逻辑卷的移除
移除前先df -mT 看一下:(在上一篇的基础上:Linux中对逻辑卷进行扩容) 1.取消挂载同时删除/etc/fstab下的记录取消挂载 umount /dev/zhi/lv-zhi 删除记录 v ...

随机推荐

HDU 3466 Proud Merchants 排序背包
题意:物品有三个属性,价格p,解锁钱数下线q(手中余额>=q才有机会购买该商品),价值v.钱数为m,问购买到物品价值和最大. 思路:首先是个01背包问题,但购买物品受限所以应先排序.考虑相邻两个 ...
poj2528线段树解题报告，离散化＋线段树
题目网址:http://poj.org/problem?id=2528 题意: n(n<=10000)个人依次贴海报,给出每张海报所贴的范围li,ri(1<=li<=ri<=1 ...
java基础（5）-集合类1
集合的由来数组是很常用的一种数据结构,但假如我们遇到以下这样的的问题: 容器长度不确定能自动排序存储以键值对方式的数据如果遇到这样的情况,数组就比较难满足了,所以也就有了一种与数组类似的数据结 ...
JavaScript -- Input Select 操作, 级联菜单
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
QT 中一些数学计算函数
QT的一些範例中有出現 qmax, qmin 等 math函式的身影,但我在官方文件中卻找不到與 math函式相關的說明,所以我就把函式的source裡面提供的方法整理條列,並且看看還有哪些 math ...
js装饰者模式
装饰者模式是为已有的功能动态地添加更多功能的一种方式.当系统需要新功能的时候,是向旧的类中添加新的代码.这些新加的代码通常装饰了原有类的核心职责或主要行为,在主类中加入了新的字段,新的方法和新的逻辑, ...
利用selenium爬取豆瓣电影Top250
这几天在学习selenium,顺便用selenium + python写了一个比较简陋的爬虫,现附上源码,有时间再补充补充: from selenium import webdriver from s ...
jenkins显示发送邮件成功，但未收到邮件
一. 构建的控制台输出显示日志发送成功,但是未收到邮件今天在完成构建的时候,破天荒的发现构建的控制台输出显示日志发送成功,但QQ邮箱的确没收到邮件 15:22:40 D:\python_worksh ...
java之 Timer 类的简单使用案例
(如果您看到本文章务必看结尾!) 第一次用Timer类,记录一下个人理解. 场景:做苹果内容结果验证时,根据苹果支付凭证去苹果官方服务器验证是否支付成功.但因为苹果服务器比较慢,第 ...
64位Navicat Premium安装/破解【含资源】
开门见山: 1/先安装Navicat Primium,双击Navicat Primium——trial_64.exe(64位) 2/安装好打开Navicat Primium,提示使用或注册时,双击Pa ...

机器学习：逻辑回归（scikit-learn 中的逻辑回归）

一、基础理解

二、正则化的其它方式

三、思考

四、实例scikit-learn中的逻辑回归算法

1）直接使用逻辑回归算法

2）为逻辑回归算法的模型添加多项式项

degree = 2、C 默认1.0

degree = 20、C 默认1.0

degree = 20、C = 0.1

degree = 20、C = 0.1、penalty = 'L1'（penalty：正则项类型， 默认为 L2）

机器学习：逻辑回归（scikit-learn 中的逻辑回归）的更多相关文章

随机推荐

热门专题

　1）直接使用逻辑回归算法

　2）为逻辑回归算法的模型添加多项式项

degree = 20、C = 0.1、penalty = 'L1'（penalty：正则项类型，默认为 L2）