首先,逻辑回归是一个概率模型,不管x取什么值,最后模型的输出也是固定在(0,1)之间,这样就可以代表x取某个值时y是1的概率 这里边的参数就是θ,我们估计参数的时候常用的就是极大似然估计,为什么呢?可以这么考虑 比如有n个x,xi对应yi=1的概率是pi,yi=0的概率是1-pi,当参数θ取什么值最合适呢,可以考虑 n个x中对应k个1,和(n-k)个0(这里k个取1的样本是确定的,这里就假设前k个是1,后边的是0.平时训练模型拿到的样本也是确定的,如果不确定还要排列组合) 则(p1*p2*...…
它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是,一个随机试验如有若干个可能的结果A,B,C,... ,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现的概率P(A)较大.极大似然原理的直观想法我们用下面例子说明.设甲箱中有99个白球,1个黑球:乙箱中有1个白球.99个黑球.现随机取出一箱,再从抽取的一箱中随机取出一球,结果是黑球,这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多,这时我们自然更多地相信这个黑球是取自乙箱的.一般说来,事件A发生的概…
[TOC] 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ 极大似然估计 一.最大似然原理 二.极大似然估计 极大似然估计是建立在最大似然原理的基础上的一个统计方法.极大似然估计提供了一种给定观察数据来评估模型参数的方法,即"模型已定,参数未知".通过观察若干次实验的结果,利用实验结果得到某个参数值能够使样本出现的概率最大,则称为极大似然估计. 简…
https://blog.csdn.net/zrh_CSDN/article/details/80934278 Logistic回归的极大似然估计求解参数的推导: https://blog.csdn.net/LegenDavid/article/details/79221063 推导到最后要计算的方程(对各个参数求偏导,使其等于0,这样联合概率取得最大值--极大似然),和 Logistic回归采用-log损失函数(对各个参数求偏导,使其等于0,这样损失函数取得最小值--预测最为准确) 这两个地方…
https://www.cnblogs.com/sylvanas2012/p/5058065.html 写的贼好 http://www.cnblogs.com/washa/p/3222109.html#3543182…
[白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要 本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解 极大似然估计 & 极大后验概率估计,并且从名著中找了几个实例给大家看看这两种估计如何应用 & 其非常有趣的特点. 0x01 背景知识 1. 概率 vs 统计 概率(probability)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反. 1.1 概率 概率研究的是,已经知道了模型和参数后,给出一个事件发生的概率. 概率是一种…
1.最大似然估计数学定义: 假设总体分布为f(x,θ),X1,X2...Xn为总体采样得到的样本.其中X1,X2...Xn独立同分布,可求得样本的联合概率密度函数为: 其中θ是需要求得的未知量,xi是样本值. 此时,L(x,θ)是关于θ的函数,称之为似然函数. 求参数θ值使得似然函数值取最大值,这种方法称之为最大似然估计.>>MLE 2.如何求解最大似然估计 其中x是已知的,θ是需要求的变量值.如果最大似然函数可导,可以通过对θ求导的方式,取得L(x,θ)的极值. 在实际中为了方便计算,往往先…
http://blog.csdn.net/pipisorry/article/details/51461997 最大似然估计MLE 顾名思义,当然是要找到一个参数,使得L最大,为什么要使得它最大呢,因为X都发生了,即基于一个参数发生的,那么当然就得使得它发生的概率最大. 最大似然估计就是要用似然函数取到最大值时的参数值作为估计值,似然函数可以写做 Note: p(x|theta)不总是代表条件概率:也就是说p(x|theta)不代表条件概率时与p(x;theta)等价,而一般地写竖杠表示条件概率…
模型已定,参数未知 已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值.最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值. 假设模型满足某种总体分布,但是不知道模型的参数,通过样本去估计参数. 最大似然估计提供了一种给定观察数据来评估模型参数的方法,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的…
最小二乘法可以从Cost/Loss function角度去想,这是统计(机器)学习里面一个重要概念,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function = (y_hat -y )^2的一个特例,类似的像各位说的还可以用各种距离度量来作为loss function而不仅仅是欧氏距离.所以loss function可以说是一种更一般化的说法. 最大似然估计是从概率角度来想这个问题,直观理解,似然函数在给定参数的条件下就是观测到一组数据realizat…