机器学习： Logistic Regression--python

今天介绍 logistic regression，虽然里面有 regression 这个词，但是这其实是一种分类的方法，这个分类方法输出的也是 0-1 之间的一个数，可以看成是一种概率输出，这个分类器利用一种 BP 迭代和随机梯度下降的方法来训练求得参数和建立分类模型。

首先来看看这个分类器用到的主要函数，即 sigmoid 函数：

y=σ(x)=11+e−x

这个函数有一个很好的特性，就是它的导数，

∂y∂x=σ(x)(1−σ(x))

下面看看，如何利用这个函数来做分类，假设样本为向量 x, 经过权重系数 w 以及 bias 的转换，变成 u=wTx+b，再经过 sigmoid 函数的转换，最终输出一个预测概率 y=σ(u) , 样本的 ground truth 为 t, 则预测值与真实 label 之间的误差可以用最小均方误差表示：

e=12(y−t)2

我们可以通过不断的调整 w 和 b 让预测值和真实 label 之间逐渐接近，根据链式法则，我们可以得到：

∂e∂w=∂e∂y∂y∂u∂u∂w

而每一部分的偏导数都可以求得：

∂e∂y=y−t

∂y∂u=σ(u)(1−σ(u))

∂u∂w=x

根据求得的偏导数，可以对权重系数进行更新：

w:=w+α∂e∂w

下面给出一个用 logistic regression 做分类的例子：

import numpy as np

from sklearn import datasets

def Sigmoid(x):

    return 1.0/(1 + np.exp(-x))

def Generate_label(y, N_class):

    N_sample = len(y)

    label = np.zeros((N_sample, N_class))

    for ii in range(N_sample):

        label[ii, int(y[ii])]=1

    return label

# load the iris data

iris = datasets.load_iris()

x_data = iris.data

y_label = iris.target

class_name = iris.target_names

n_sample = len(x_data)

n_class = len(set(y_label))

np.random.seed(0)

index = np.random.permutation(n_sample)

x_data = x_data[index]

y_label = y_label[index].astype(np.float)

train_x = x_data[: int(.8 * n_sample)]

train_y = y_label[: int( .8 * n_sample)]

test_x = x_data[int(.8 * n_sample) :]

test_y = y_label[int(.8 * n_sample) :]

train_label = Generate_label(train_y, n_class)

test_label = Generate_label(test_y, n_class)

# training process

D = train_x.shape[1]

W = 0.01 * np.random.rand(D, n_class)

b = np.zeros((1, n_class))    

step_size = 1e-1

reg = 1e-3

train_sample = train_x.shape[0]

batch_size = 10

num_batch = train_sample / batch_size

train_epoch = 1000

for ii in range (train_epoch):

    for batch_ii in range(num_batch):

        batch_x = train_x[batch_ii * batch_size:

            (batch_ii+1) * batch_size, :]

        batch_y = train_label[batch_ii * batch_size:

            (batch_ii+1) * batch_size, :]

        scores = np.dot(batch_x, W) + b

        y_out = Sigmoid(scores)

        e = y_out - batch_y

        dataloss = 0.5 * np.sum(e*e) / batch_size

        regloss = 0.5 * reg *  np.sum(W*W)

        L = dataloss + regloss

        dscores = e * y_out * (1 - y_out) / batch_size

        dw = np.dot(batch_x.T, dscores)

        db = np.sum(dscores, axis=0, keepdims=True)

        dw += reg*W

        W = W - step_size * dw

        b = b - step_size * db

    if (ii % 10 == 0):

        print 'the training loss is: %.4f' % L

# test process

scores = np.dot(test_x, W) + b

y_out = Sigmoid(scores)

predict_out = np.argmax(y_out, axis=1)

print 'test accuracy: %.2f' % (np.mean(predict_out == test_y))

机器学习： Logistic Regression--python的更多相关文章

机器学习 Logistic Regression
Logistic Regression 之前我们讨论过回归问题,并且讨论了线性回归模型.现在我们来看看分类问题,分类问题与回归问题类似,只不过输出变量一个是离散的,一个是连续的.我们先关注二分类问题, ...
机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）
http://blog.csdn.net/zouxy09/article/details/20319673 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) z ...
机器学习/逻辑回归（logistic regression）/--附python代码
个人分类: 机器学习本文为吴恩达<机器学习>课程的读书笔记,并用python实现. 前一篇讲了线性回归,这一篇讲逻辑回归,有了上一篇的基础,这一篇的内容会显得比较简单. 逻辑回归(log ...
Python机器学习算法 — 逻辑回归（Logistic Regression）
逻辑回归--简介逻辑回归(Logistic Regression)就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型 ...
Python实践之（七）逻辑回归（Logistic Regression）
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习算法与Pyth ...
机器学习二逻辑回归作业、逻辑回归（Logistic Regression）
机器学习二逻辑回归作业作业在这,http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/hw2.pdf 是区分spam的. 57 ...
机器学习——逻辑回归（Logistic Regression）
1 前言虽然该机器学习算法名字里面有"回归",但是它其实是个分类算法.取名逻辑回归主要是因为是从线性回归转变而来的. logistic回归,又叫对数几率回归. 2 回归模型 2. ...
在opencv3中实现机器学习之：利用逻辑斯谛回归（logistic regression)分类
logistic regression,注意这个单词logistic ,并不是逻辑(logic)的意思,音译过来应该是逻辑斯谛回归,或者直接叫logistic回归,并不是什么逻辑回归.大部分人都叫成逻 ...
Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization
原文:http://blog.csdn.net/abcjennifer/article/details/7716281 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归 ...
机器学习总结之逻辑回归Logistic Regression
机器学习总结之逻辑回归Logistic Regression 逻辑回归logistic regression,虽然名字是回归,但是实际上它是处理分类问题的算法.简单的说回归问题和分类问题如下: 回归问 ...

随机推荐

INSTALL_FAILED_UID_CHANGED解决的方法
近期开发过程中又遇到了这个问题,最终找到了一个比較好的解决的方法.在此记录下. 打开手机或者pad中的设置----->安全----->未知来源(同意安装非安卓市场应用程序). 把这个取消, ...
光盘yum源搭建步骤
java 中 wait和notify的用法
package com.test; public class OutputThread { public static Object lockObj=new Object(); public stat ...
解决opencv无法读AVI视频的问题
原文来自:http://blog.csdn.net/yeqiu712/article/details/6220030 其实AVI只是一个外壳.里面的东西可不一样的! 问题:为什么我的电脑支持AVI或者 ...
扒一扒P2P风控的底牌（转）
互联网金融,这里面水就太深了,能当理财买的一般有两类,一个是货币基金,比如余额宝,这个大家已经十分清楚了,没什么风险, 但问题就是收益越来越低.实在是不过瘾了.而另外一种就是P2P理财了,收益很高,也 ...
【转】Android7.0版本以上的手机Eclipse无法打出LogCat
本来想用Eclipse连下手机看下log的,结果LogCat没打出来任何信息,起初怀疑是我的DDMS有问题,结果连了下我老大的手机,完美打出log,看了下Android系统,老大的是6.0的,我的7. ...
iOS项目 -- 模仿花椒直播做的第二层界面完整版
,项目开始做了,好遗憾的是,花椒app有更新了版本,
CF459C Pashmak and Buses 打印全排列
这题假设将终于的结果竖着看,每一列构成的数能够看成是k进制的数.一共同拥有d列,随意两列都不同样,所以这就是一个d位k进制数全排列的问题,一共同拥有k ^ d个排列.假设k ^ d < n,则打 ...
关于打开sdk下载不了的最优秀解决方式
使用网站: mirrors.neusoft.edu.cn 东北大学就可以
delphi视频聊天
用Delphi开发视频聊天软件一.引言我们知道视频聊天软件的关键技术在于采集视频,并实时传输给聊天软件在线的人.对于视频的采集,这里采用微软公司的关于数字视频的一个软件包VFW(Video for ...

机器学习： Logistic Regression--python

机器学习： Logistic Regression--python的更多相关文章

随机推荐

热门专题