机器学习基础-Logistic回归2

随机梯度上升法--一次仅用一个样本点来更新回归系数（因为可以在新样本到来时对分类器进行增量式更新，因而属于在线学习算法）

梯度上升法在每次更新回归系统时都需要遍历整个数据集，该方法在处理100个左右的数据集时尚可，但如果有数十亿样本和成千上万的特征，那么该方法的计算复杂度太高了。

随机梯度上升算法伪代码：

所有回归系数初始化为1

对数据集中每个样本

计算该样本的梯度

使用alpha*gradient更新回归系数值

返回回归系数值

def stocGradAscent0(dataMatrix, classLabels):

    m,n = shape(dataMatrix)

    alpha = 0.01

    weights = ones(n)   #initialize to all ones

    for i in range(m):

        h = sigmoid(sum(dataMatrix[i]*weights))

        error = classLabels[i] - h

        weights = weights + alpha * error * dataMatrix[i]

    return weights

回归系数经过大量迭代才能达到稳定值，并且仍然有局部波动的现象。

对于随机梯度算法中存在的问题，可以通过改进的随机梯度上升算法来解决。

def stocGradAscent1(dataMatrix, classLabels, numIter=150):

    m,n = shape(dataMatrix)

    weights = ones(n)   #initialize to all ones

    for j in range(numIter):

        dataIndex = range(m)

        for i in range(m):

            alpha = 4/(1.0+j+i)+0.0001    #apha decreases with iteration, does not

            randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant

            index=dataIndex[randIndex]

            h = sigmoid(sum(dataMatrix[index]*weights))

            error = classLabels[index] - h

            weights = weights + alpha * error * dataMatrix[index]

            del(dataIndex[randIndex])

    return weights

改进：

1.alpha在每次迭代的时候都会调整，这会缓解数据的波动或者高频波动。虽然alpha会随着迭代次数不断减小，但永远不会减到0，保证了新数据在多次迭代之后仍然具有一定的影响。

2.通过随机选取样本来更新回归系数。这种方法将减少周期性的波动。

机器学习基础-Logistic回归2的更多相关文章

机器学习基础-Logistic回归1
利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类. 训练分类器时的做法就是寻找最佳拟合参数,使用的时最优化算法. 优点:计算代价不高,利于理解和实现. ...
[机器学习实战-Logistic回归]使用Logistic回归预测各种实例
目录本实验代码已经传到gitee上,请点击查收! 一.实验目的二.实验内容与设计思想实验内容设计思想三.实验使用环境四.实验步骤和调试过程 4.1 基于Logistic回归和Sigmoid ...
机器学习之Logistic 回归算法
1 Logistic 回归算法的原理 1.1 需要的数学基础我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...
机器学习之logistic回归算法与代码实现原理
Logistic回归算法原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...
机器学习5—logistic回归学习笔记
机器学习实战之logistic回归 test5.py #-*- coding:utf-8 import sys sys.path.append("logRegres.py") fr ...
机器学习笔记—Logistic回归
本文申明:本系列笔记全部为原创内容,如有转载请申明原地址出处.谢谢序言:what is logistic regression? Logistics 一词表示adj.逻辑的;[军]后勤学的n.[逻] ...
机器学习笔记—Logistic 回归
前面我们介绍了线性回归,为捕获训练集中隐藏的线性模型,提高预测准确率,我们寻找最佳参数 θ,使得预测值与真实值误差尽量小,也就是使均方误差最小.而经过验证,最小均方误差是符合最大似然估计理论的. 在 ...
吴裕雄--天生自然python机器学习：Logistic回归
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类 ...
机器学习算法-logistic回归算法
Logistic回归算法调试一.算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题.其原理为对一些数据点用一条直线去拟合,对数据集进行划分.从广义上来讲这也是一种多元 ...

随机推荐

136 Single Number 数组中除一个数外其他数都出现两次，找出只出现一次的数
给定一个整数数组,除了某个元素外其余元素均出现两次.请找出这个只出现一次的元素.备注:你的算法应该是一个线性时间复杂度. 你可以不用额外空间来实现它吗? 详见:https://leetcode.com ...
Android中ProgressBar显示小数的方法
Android原生的ProgressBar的ProgressDialog.STYLE_HORIZONTAL(即水平样式)默认setMax和setProgress只能传int型的参数,而实际项目中我需要 ...
[已读]HTML5与CSS3设计模式
我想说,不要被书名骗了,其实并没有涉及丁点h5与css3的内容,但是确实称得上比较详细的一本关于css的书.看它的页数就知道了,481~~ 今年上半年看完的,现在想想,觉得自己还是蛮拼的.内容会比较枯 ...
Java GC基础
Java的垃圾回收机制负责回收无用对象占据的内存资源,但是有特殊情况:假定对象不是使用new关键字获得了一块儿“特殊”的内存区域,
VS Code使用技巧整理
转自:https://blog.csdn.net/u011127019/article/details/58586129 https://blog.csdn.net/sgdd123/article/d ...
【opencv】imread CV_LOAD_IMAGE_GRAYSCALE
转灰度图的操作很多,但是opencv中的CV_LOAD_IMAGE_GRAYSCALE的具体操作为: gray = 0.299 * r + 0.587 * g + 0.114 * b 然后,小数点部分 ...
JavaScript Html2canvas 生成高清图片（移动端模糊问题）
最近在做一个移动端的项目,简单记录一下该功能. 需求是这样的: 将带有二维码和一些介绍信息动态生成一张图片比如说是生成这样的图片,文字.主图.价格.二维码都是不固定的. 对于这个需求,看见微信上 ...
DROP DOMAIN - 删除一个用户定义的域
SYNOPSIS DROP DOMAIN name [, ...] [ CASCADE | RESTRICT ] DESCRIPTION 描述 DROP DOMAIN 将从系统表中删除一个用户域. 只 ...
Bug的分类和管理流程
1.按照严重程度划分定义:是指Bug对软件质量的破坏程度,即BUG的存在将对软件的功能和性能产生怎样的影响分类:系统崩溃.严重.一般.次要.建议 2.按优先级划分定义:表示处理和修正软件缺陷的现 ...
Convert Sorted List to Balanced Binary Search Tree leetcode
题目:将非递减有序的链表转化为平衡二叉查找树! 参考的博客:http://blog.csdn.net/worldwindjp/article/details/39722643 利用递归思想:首先找到链 ...

机器学习基础-Logistic回归2

机器学习基础-Logistic回归2的更多相关文章

随机推荐

热门专题