logistic回归

回归就是对已知公式的未知参数进行估计。比如已知公式是$y = a*x + b$，未知参数是a和b，利用多真实的(x,y)训练数据对a和b的取值去自动估计。估计的方法是在给定训练样本点和已知的公式后，对于一个或多个未知参数，机器会自动枚举参数的所有可能取值，直到找到那个最符合样本点分布的参数（或参数组合）。

logistic分布

设X是连续随机变量，X服从logistic分布是指X具有下列分布函数和密度函数：

$$F(x)=P(x \le x)=\frac 1 {1+e^{{-(x-\mu)/\gamma}}\\

f(x)=F}{'}(x)=\frac {e^{-(x-\mu)/\gamma}} {\gamma(1+e^{{-(x-\mu)/\gamma})}2}$$

其中，$\mu$为位置参数，$\gamma$为形状参数。

$f(x)$与$F(x)$图像如下，其中分布函数是以$(\mu, \frac 1 2)$为中心对阵，$\gamma$越小曲线变化越快。

logistic回归模型

二项logistic回归模型如下：

$$P(Y=1|x)=\frac {exp(w \cdot x + b)} {1 + exp(w \cdot x + b)} \

P(Y=0|x)=\frac {1} {1 + exp(w \cdot x + b)}$$

其中，$x \in R^n$是输入，$Y \in {0,1}$是输出，w称为权值向量，b称为偏置，$w \cdot x$为w和x的内积。

参数估计

假设：

$$P(Y=1|x)=\pi (x), \quad P(Y=0|x)=1-\pi (x)$$

则似然函数为:

$$\prod_{i=1}^N [\pi (x_i)]^{y_i} [1 - \pi(x_i)]^{1-y_i}

$$

求对数似然函数：

$$L(w) = \sum_{i=1}^N [y_i \log{\pi(x_i)} + (1-y_i) \log{(1 - \pi(x_i)})]\

=\sum_{i=1}^N [y_i \log{\frac {\pi (x_i)} {1 - \pi(x_i)}} + \log{(1 - \pi(x_i)})]$$

从而对$L(w)$求极大值，得到$w$的估计值。

求极值的方法可以是梯度下降法，梯度上升法等。

梯度上升确定回归系数

logistic回归的sigmoid函数：

$$\sigma (z) = \frac 1 {1 + e^{-z}}$$

假设logstic的函数为:

$$y = w_0 + w_1 x_1 + w_2 x_2 + ... + w_n x_n$$

可简写为:

$$y = w_0 + w^T x$$

梯度上升算法是按照上升最快的方向不断移动，每次都增加$\alpha \nabla_w f(w)$，

$$w = w + \alpha \nabla_w f(w) $$

其中，$\nabla_w f(w)$为函数导数，$\alpha$为增长的步长。

训练算法

本算法的主要思想根据logistic回归的sigmoid函数来将函数值映射到有限的空间内，sigmoid函数的取值范围是0~1，从而可以把数据按照0和1分为两类。在算法中，首先要初始化所有的w权值为1，每次计算一次误差并根据误差调整w权值的大小。

每个回归系数都初始化为1
重复N次
- 计算整个数据集合的梯度
- 使用$\alpha \cdot \nabla f(x)$来更新w向量
- 返回回归系数

#!/usr/bin/env python

# encoding:utf-8

import math

import numpy

import time

import matplotlib.pyplot as plt

def sigmoid(x):

    return 1.0 / (1 + numpy.exp(-x))

def loadData():

    dataMat = []

    laberMat = []

    with open("test.txt", 'r') as f:

        for line in f.readlines():

            arry = line.strip().split()

            dataMat.append([1.0, float(arry[0]), float(arry[1])])

            laberMat.append(float(arry[2]))

    return numpy.mat(dataMat), numpy.mat(laberMat).transpose()

def gradAscent(dataMat, laberMat, alpha=0.001, maxCycle=500):

    """general gradscent"""

    start_time = time.time()

    m, n = numpy.shape(dataMat)

    weights = numpy.ones((n, 1))

    for i in range(maxCycle):

        h = sigmoid(dataMat * weights)

        error = laberMat - h

        weights += alpha * dataMat.transpose() * error

    duration = time.time() - start_time

    print "duration of time:", duration

    return weights

def stocGradAscent(dataMat, laberMat, alpha=0.01):

    start_time = time.time()

    m, n = numpy.shape(dataMat)

    weights = numpy.ones((n, 1))

    for i in range(m):

        h = sigmoid(dataMat[i] * weights)

        error = laberMat[i] - h

        weights += alpha * dataMat[i].transpose() * error

    duration = time.time() - start_time

    print "duration of time:", duration

    return weights

def betterStocGradAscent(dataMat, laberMat, alpha=0.01, numIter=150):

    """better one, use a dynamic alpha"""

    start_time = time.time()

    m, n = numpy.shape(dataMat)

    weights = numpy.ones((n, 1))

    for j in range(numIter):

        for i in range(m):

            alpha = 4 / (1 + j + i) + 0.01

            h = sigmoid(dataMat[i] * weights)

            error = laberMat[i] - h

            weights += alpha * dataMat[i].transpose() * error

    duration = time.time() - start_time

    print "duration of time:", duration

    return weights

    start_time = time.time()

def show(dataMat, laberMat, weights):

    m, n = numpy.shape(dataMat)

    min_x = min(dataMat[:, 1])[0, 0]

    max_x = max(dataMat[:, 1])[0, 0]

    xcoord1 = []; ycoord1 = []

    xcoord2 = []; ycoord2 = []

    for i in range(m):

        if int(laberMat[i, 0]) == 0:

            xcoord1.append(dataMat[i, 1]); ycoord1.append(dataMat[i, 2])

        elif int(laberMat[i, 0]) == 1:

            xcoord2.append(dataMat[i, 1]); ycoord2.append(dataMat[i, 2])

    fig = plt.figure()

    ax = fig.add_subplot(111)

    ax.scatter(xcoord1, ycoord1, s=30, c="red", marker="s")

    ax.scatter(xcoord2, ycoord2, s=30, c="green")

    x = numpy.arange(min_x, max_x, 0.1)

    y = (-weights[0] - weights[1]*x) / weights[2]

    ax.plot(x, y)

    plt.xlabel("x1"); plt.ylabel("x2")

    plt.show()

if __name__ == "__main__":

    dataMat, laberMat = loadData()

    #weights = gradAscent(dataMat, laberMat, maxCycle=500)

    #weights = stocGradAscent(dataMat, laberMat)

    weights = betterStocGradAscent(dataMat, laberMat, numIter=80)

    show(dataMat, laberMat, weights)

未优化的程序结果如下，

随机梯度上升算法（降低了迭代的次数，算法较快，但结果不够准确）结果如下，

对$\alpha$进行优化，动态调整步长（同样降低了迭代次数，但是由于代码采用动态调整alpha，提高了结果的准确性），结果如下

logistic回归的更多相关文章

神经网络、logistic回归等分类算法简单实现
最近在github上看到一个很有趣的项目,通过文本训练可以让计算机写出特定风格的文章,有人就专门写了一个小项目生成汪峰风格的歌词.看完后有一些自己的小想法,也想做一个玩儿一玩儿.用到的原理是深度学习里 ...
机器学习——Logistic回归
1.基于Logistic回归和Sigmoid函数的分类 2.基于最优化方法的最佳回归系数确定 2.1 梯度上升法参考:机器学习--梯度下降算法 2.2 训练算法:使用梯度上升找到最佳参数 Logis ...
Logistic回归 python实现
Logistic回归算法优缺点: 1.计算代价不高,易于理解和实现2.容易欠拟合,分类精度可能不高3.适用数据类型:数值型和标称型算法思想: 其实就我的理解来说,logistic回归实际上就是加了 ...
Logistic回归的使用
Logistic回归的使用和缺失值的处理从疝气病预测病马的死亡率数据集: UCI上的数据,368个样本,28个特征测试方法: 交叉测试实现细节: 1.数据中因为存在缺失值所以要进行预处理,这点 ...
如何在R语言中使用Logistic回归模型
在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价.身高.GDP.学生成绩等,发现这些被预测的变量都属于连续型变量.然而有些情况下,被预测变量可能是二元变量,即成功或失败.流失或 ...
SPSS数据分析—配对Logistic回归模型
Lofistic回归模型也可以用于配对资料,但是其分析方法和操作方法均与之前介绍的不同,具体表现在以下几个方面1.每个配对组共有同一个回归参数,也就是说协变量在不同配对组中的作用相同2.常数项随着配 ...
SPSS数据分析—多分类Logistic回归模型
前面我们说过二分类Logistic回归模型,但分类变量并不只是二分类一种,还有多分类,本次我们介绍当因变量为多分类时的Logistic回归模型. 多分类Logistic回归模型又分为有序多分类Logi ...
SPSS数据分析—二分类Logistic回归模型
对于分类变量,我们知道通常使用卡方检验,但卡方检验仅能分析因素的作用,无法继续分析其作用大小和方向,并且当因素水平过多时,单元格被划分的越来越细,频数有可能为0,导致结果不准确,最重要的是卡方检验不能 ...
Logistic回归分类算法原理分析与代码实现
前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...

随机推荐

HDU 5945 / BestCoder Round #89 1002 Fxx and game 单调队列优化DP
Fxx and game 问题描述青年理论计算机科学家Fxx给的学生设计了一款数字游戏. 一开始你将会得到一个数\:XX,每次游戏将给定两个参数\:k,tk,t, 任意时刻你可以对你的数执行下面 ...
HBase基本shell命令
HBase基本shell命令以下shell命令都是经过测试,正常展示,若有不足,还望指点! 1.创建表 create ‘表名称’,‘列族名称1’,‘列族名称1’create 'test_M_01', ...
asp.net执行SqlServer存储过程!(详解！)
ASP.NET执行存储过程一. 执行一个没有参数的存储过程的代码如下: connectionString为连接字符串 SqlConnection conn=new SqlConnection(con ...
Lambda表达式详解
前言 1.天真热,程序员活着不易,星期天,也要顶着火辣辣的太阳,总结这些东西. 2.夸夸lambda吧:简化了匿名委托的使用,让你让代码更加简洁,优雅.据说它是微软自c#1.0后新增的最重要的功能之一 ...
android 常用URI
关于联系人的一些URI: 管理联系人的Uri: ContactsContract.Contacts.CONTENT_URI 管理联系人的电话的Uri: ContactsContract.CommonD ...
PHP多级联动的学习（一）
我尝试在ThinkCMF中实现多级联动,首先我开始看了dede的联动类别管理前后台的代码以及他的数据库,经过非常多次的尝试,我渐渐有了一点想法,并给予实施. 首先写出前台的界面.如图. 然后在数据库中 ...
HDU 5008 Boring String Problem(后缀数组+二分)
题目链接思路想到了,但是木写对啊....代码各种bug,写的乱死了.... 输出最靠前的,比较折腾... #include <cstdio> #include <cstring ...
文件处理命令：sed
使用:sed [-nefr] actionaction:-i直接修改读取的档案内容,而不是由屏幕输出,-r表示支持延伸型正则表达式的语法.动作说明:[n1[,n2]] function n1,n2表示 ...
ASP.NET Razor - html中使用if else
参考: http://www.runoob.com/aspnet/razor-cs-loops.html <select id="task_isfirst" class=&q ...
新手 gulp+ seajs 小demo
首先,不说废话,它的介绍和作者就不在多说了,网上一百度一大堆: 我在这里只是来写写我这2天抽空对seajs的了解并爬过的坑,和实现的一个小demo(纯属为了实现,高手请绕道); 一.环境工具及安装 1 ...

logistic回归

logistic回归

logistic分布

logistic回归模型

参数估计

梯度上升确定回归系数

训练算法

logistic回归的更多相关文章

随机推荐

热门专题