机器学习-Logistic function（Sigmoid function）

下面给出H函数

由这个函数生成的曲线称为Sigmoid曲线

先不从数学上说为什么这个模型中二元分类上比线性模型好，单纯从图形上看就可以得到直观的结论
首先Y值域在[0,1]，其次图形中中间陡峭而两边平缓，符合二元分类的样本点特性

确定了模型，下面要做的是fit最优的θ，仍然是采用最大似然法，即找出对训练数据可能性最大的那个θ

前面对于线性回归问题，符合高斯分布（连续回归问题往往符合高斯分布），最终我们由最大似然推导出最小二乘回归
但是对于二元分类，符合伯努利分布（the Bernoulli distribution, 又称两点分布，0-1分布），因为二元分类的输出一定是0或1，典型的伯努利实验
by the way，二项分布是n次独立的伯努利实验形成的概率分布，当n=1时，就是伯努利分布
同样，如果离散输出是多个值，就是符合多项分布

看看由最大似然可以推导出什么
首先给出伯努利分布

是否好理解，给定x;θ，y=1的概率等于h的值，看看图中，当然是h的值越大越可能为1，越小越可能为0
那么这个式子可以合并写成，比较tricky的写法，Y为0或1，总有一项为1
那么θ的似然函数定义为，θ的可能性取决于模型对训练集拟合的好坏

同样为了数学计算方便，定义log likelihood，

很显然，对于伯努利分布，这里无法推导出最小二乘
下面要做的是找到θ使得ℓ(θ)最大，由于这里是找最大值而非最小值，所以使用梯度上升（gradient ascent），道理是一样的
首先计算梯度，计算过程参考原文

所以最终随机梯度上升rule写成，
这个梯度公式，奇迹般的和线性回归中的梯度公式表面上看是一样的，可以仔细比较一样的
之所以说表面上，是因为其中的是不同的，这里是logitics函数。

Perceptron Learning Algorithm（感知机算法）

这里谈感知机，好像有些离题，但是你看下感知机的函数

单纯从直观图形的角度，似乎是逻辑函数的简化形式
逻辑函数是连续的在[0,1]区间上，而感知机直接非0则1，参考下图红线

同样使用梯度下降的感知机算法也是和上面相同的形式

同样不同的仅仅是h(x)
1960s，感知机被看作是大脑工作中独立神经元的粗糙的模型，由于简单，会用作后面介绍的学习算法的起点
虽然直观看上去感知机和之前看到的logistic回归或最小二乘回归很像，但是其实是非常不一样的算法
因为，对于感知机，很难赋予一种有意义的概率解释（probabilistic interpretations），或使用最大似然估计算法来推导感知机算法
而对于最小二乘或logistic都可以给出像高斯分布或伯努利分布的概率解释，并可以使用最大似然进行推导。

机器学习-Logistic function（Sigmoid function）的更多相关文章

coursera机器学习-logistic回归，正则化
#对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...
S性能 Sigmoid Function or Logistic Function
S性能 Sigmoid Function or Logistic Function octave码 x = -10:0.1:10; y = zeros(length(x), 1); for i = 1 ...
logistic function 和 sigmoid function
简单说, 只要曲线是 “S”形的函数都是sigmoid function: 满足公式<1>的形式的函数都是logistic function. 两者的相同点是: 函数曲线都是“S”形. ...
Sigmoid Function
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/51734189 Sigmodi 函数是一 ...
sigmoid function的直观解释
Sigmoid function也叫Logistic function, 在logistic regression中扮演将回归估计值h(x)从 [-inf, inf]映射到[0,1]的角色. 公式为: ...
What are the advantages of ReLU over sigmoid function in deep neural network?
The state of the art of non-linearity is to use ReLU instead of sigmoid function in deep neural netw ...
Sigmoid function in NN
X = [ones(m, ) X]; temp = X * Theta1'; t = size(temp, ); temp = [ones(t, ) temp]; h = temp * Theta2' ...
sigmoid function vs softmax function
DIFFERENCE BETWEEN SOFTMAX FUNCTION AND SIGMOID FUNCTION 二者主要的区别见于, softmax 用于多分类,sigmoid 则主要用于二分类: ...
machine learning(10) -- classification:logistic regression cost function 和使用 gradient descent to minimize cost function
logistic regression cost function(single example) 图像分布 logistic regression cost function(m examples) ...
function,new function,Function,new Function 之间的区别
测试一: var fud01 = function() { var temp = 100; this.temp = 200; return temp + this.temp; } alert(typ ...

随机推荐

win7-64bit安装comtypes的问题
Update 28/12/2014: Please download the latest comtypes 1.1.1 from https://pypi.python.org/pypi/comty ...
WAMP的端口修改
wamp集成了开源的利器mysql+apache+php,真的是有越来越火的趋势了,可是有些人,安装php的集成开发环境WAMP的时候,出现端口被占用了,无法连接服务器的时候, 这时,如果要修改WAM ...
Linux 对比 Windows 缺点
SELinux_百度百科 https://baike.baidu.com/item/SELinux/8865268?fr=aladdin 虽然Linux比起 Windows来说,它的可靠性,稳 ...
winform 无法修改控件的location
dock and location 是因为设置了控件的Dock,导致无法修改
maven配置篇
1,windows A)安装maven之前,确认已正确安装JDK B)下载maven http://maven.apache.org/download.html C)将压缩包解压到指定目录,E:\ap ...
什么叫强类型的DATASET
强类型DataSet,是指需要预先定义对应表的各个字段的属性和取值方式的数据集.对于所有这些属性都需要从DataSet, DataTable, DataRow继承,生成相应的用户自定义类.强类型的一个 ...
hash与map的区别联系应用
一,hashtable原理: 哈希表又名散列表,其主要目的是用于解决数据的快速定位问题.考虑如下一个场景. 一列键值对数据,存储在一个table中,如何通过数据的关键字快速查找相应值呢?不要告诉我一个 ...
工作笔记——sqlserver引号的运用
一. sqlserver引号问题:因为要使用远程连接,所以sql语句要用单引号括起来 SELECT * FROM OPENQUERY ([192.168.***.***] ,'select * fro ...
【HDU 2167】 Pebbles
[题目链接] 点击打开链接 [算法] 状压DP 先搜出一行符合的情况,然后,f[i][j]表示第i行,状态为j,能够取得的最大值,DP即可 [代码] #include<bits/stdc++.h ...
使用Django.core.cache操作Memcached导致性能不稳定的分析过程
使用Django.core.cache操作Memcached导致性能不稳定的分析过程最近测试一项目,用到了Nginx缓存服务,那可真是快啊!2Gb带宽都轻易耗尽. 不过Api接口无法简单使用Ngin ...

机器学习-Logistic function（Sigmoid function）

机器学习-Logistic function（Sigmoid function）的更多相关文章

随机推荐

热门专题