极大既然估计和高斯分布推导最小二乘、LASSO、Ridge回归

最小二乘法可以从Cost/Loss function角度去想，这是统计（机器）学习里面一个重要概念，一般建立模型就是让loss function最小，而最小二乘法可以认为是 loss function = （y_hat -y )^2的一个特例，类似的像各位说的还可以用各种距离度量来作为loss function而不仅仅是欧氏距离。所以loss function可以说是一种更一般化的说法。

最大似然估计是从概率角度来想这个问题，直观理解，似然函数在给定参数的条件下就是观测到一组数据realization的概率（或者概率密度）。最大似然函数的思想就是什么样的参数才能使我们观测到目前这组数据的概率是最大的。

类似的从概率角度想的估计量还有矩估计（moment estimation）。就是通过一阶矩二阶矩等列方程，来反解出参数。

有人提到了正态分布。最大似然估计和最小二乘法还有一大区别就是，最大似然估计是需要有分布假设的，属于参数统计，如果连分布函数都不知道，又怎么能列出似然函数呢？而最小二乘法则没有这个假设。二者的相同之处是都把估计问题变成了最优化问题。但是最小二乘法是一个凸优化问题，最大似然估计不一定是。

注：
从优化的角度上来讲，负的log likelihood 就是求MLE（最大似然估计）要优化的目标函数。
那么为啥MLE需要设置分布这么麻烦，还有这么多应用，因为当likelihood设置正确的时候，这个目标函数给出的解最efficient。
那么为啥有这么多人把MLE和LOSE搞混，因为当likelihood用的是gaussian的时候，由于gaussian kernel里有个类似于Euclidean distance的东西，一求log就变成square loss了，导致解和OLSE是一样的。而碰巧刚接触MLE的时候基本都是gaussian假设，这才导致很多人分不清楚。

从概率论的角度：
Least Square 的解析解可以用 Gaussian 分布以及最大似然估计求得
Ridge 回归可以用 Gaussian 分布和最大后验估计解释
LASSO 回归可以用 Laplace 分布和最大后验估计解释

-------------------------------------------------------------------
下面是上述三种的推导
注意：
首先知道什么是：高斯分布、拉普拉斯分布、最大似然估计，最大后验估计（MAP）。
按照李航博士的观点，机器学习三要素为：模型、策略、算法。
一种模型可以有多种求解策略，每一种求解策略可能最终又有多种计算方法。
以下只推导模型策略，不讲算法。

区别：

最大似然估计不考虑先验后验的问题，纯粹是选择一个参数能最大化模型似然度
最大后验概率是贝叶斯方法，引入参数的先验概率，结合似然度选择最佳参数或模型

拉普拉斯分布

    在概率论与统计学中，拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布.由于它可以看作是两个不同位置的指数分布背靠背拼接在一起，所以它也叫作双指数分布.两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动，所以它遵循拉普拉斯分布.
    如果随机变量的概率密度函数为

极大既然估计和高斯分布推导最小二乘、LASSO、Ridge回归的更多相关文章

[白话解析] 深入浅出极大似然估计 & 极大后验概率估计
[白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解极大似然估计 & 极大后验概率估计,并且从名著中找 ...
【ML数学知识】极大似然估计
它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是,一个随机试验如有若干个可能的结果A,B,C,... ,若在一次试验中,结果A出现了,那么可以认为实验条件对A的出现有利,也即出现 ...
B-概率论-极大似然估计
[TOC] 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ ...
LR为什么用极大似然估计，损失函数为什么是log损失函数（交叉熵）
首先,逻辑回归是一个概率模型,不管x取什么值,最后模型的输出也是固定在(0,1)之间,这样就可以代表x取某个值时y是1的概率这里边的参数就是θ,我们估计参数的时候常用的就是极大似然估计,为什么呢?可 ...
数值分析：最小二乘与岭回归（Pytorch实现）
Chapter 4 1. 最小二乘和正规方程 1.1 最小二乘的两种视角从数值计算视角看最小二乘法我们在学习数值线性代数时,学习了当方程的解存在时,如何找到\(\textbf{A}\bm{x}=\ ...
L1,L2范数和正则化到lasso ridge regression
一.范数 L1.L2这种在机器学习方面叫做正则化,统计学领域的人喊她惩罚项,数学界会喊她范数. L0范数表示向量xx中非零元素的个数. L1范数表示向量中非零元素的绝对值之和. L2范数表 ...
【机器学习】Linear least squares, Lasso,ridge regression有何本质区别？
Linear least squares, Lasso,ridge regression有何本质区别? Linear least squares, Lasso,ridge regression有何本质 ...
《机器学习_01_线性模型_线性回归_正则化(Lasso,Ridge,ElasticNet)》
一.过拟合建模的目的是让模型学习到数据的一般性规律,但有时候可能会学过头,学到一些噪声数据的特性,虽然模型可以在训练集上取得好的表现,但在测试集上结果往往会变差,这时称模型陷入了过拟合,接下来造一些 ...
极大似然估计MLE 极大后验概率估计MAP
https://www.cnblogs.com/sylvanas2012/p/5058065.html 写的贼好 http://www.cnblogs.com/washa/p/3222109.html ...

随机推荐

python打造线程池
# coding=utf-8 import threading import Queue import time import traceback class ThreadPoolExecutor(o ...
selenium+phantomjs渲染网页
from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapa ...
C# winform开发嵌套Chrome内核浏览器(WebKit.net)开发（一）
https://www.cnblogs.com/Maxq/p/6566558.html WebKit.net是对WebKit的.Net封装, 使用它.net程序可以非常方便的集成和使用webkit作为 ...
ios开发之--使用AFN上传3.1.0上传视频，不走成功回调原因及解决方法
在测试接口的时候,发现接口称走走了,但是success的回调不走,检查了下代码,发现没有初始化下面两个方法: manage.responseSerializer = [AFHTTPResponseSe ...
javascript 以“年-月-日时：分：秒”格式显示当前时间
运行代码 /** * Created by shgbit on 2015/1/9. *js代码 */ function showNow(){ var t=new Date(); var mont ...
STL——仿函数（函数对象）
一.仿函数(也叫函数对象)概观仿函数的作用主要在哪里?从第6章可以看出,STL所提供的各种算法,往往有两个版本,其中一个版本表现出最常用(或最直观)的某种运算,第二个版本则表现出最泛化的演算流程,允 ...
细说php的异常和错误处理机制
再谈php错误与异常处理讲的非常好 w3school php异常处理机制 php错误异常处理详解注: 关注set_error_handler() set_exception_handler() r ...
《Lua程序设计》9.1 协同程序基础学习笔记
协同程序(coroutine)与线程(thread)差不多,也就是一条执行序列,拥有自己独立的栈.局部变量和指令指针,同时又与其他协同程序共享全局变量和其他大部分东西.从概念上讲线程与协同程序的主要区 ...
【LeetCode OJ】Longest Substring Without Repeating Characters
题目链接:https://leetcode.com/problems/longest-substring-without-repeating-characters/ 题目:Given a string ...
Jquery-无法有效获取当前窗口高度
今天碰到个很奇怪的事情,那就是滚动条往下滚动时候没有触发提示,反而是往上滚动的时候,触发了提示.百思不得其解,尤其是拿了美工大大的切图过来,一点问题都没有. 那么就进行console.log输出查看了 ...

极大既然估计和高斯分布推导最小二乘、LASSO、Ridge回归

拉普拉斯分布

极大既然估计和高斯分布推导最小二乘、LASSO、Ridge回归的更多相关文章

随机推荐

热门专题