机器学习中的数学

觉得有用的话,欢迎一起讨论相互学习~Follow Me

原创文章,如需转载请保留出处

本博客为七月在线邹博老师机器学习数学课程学习笔记

Taylor 展式与拟牛顿

索引

taylor展式

计算函数值
解释gini系数公式
平方根公式

牛顿法
梯度下降算法
拟牛顿法
DFP
BFGS

Taylor公式

如果函数在x0点可以计算n阶导数,则有Taylor展开
如果取x0=0,则有Taylor的麦克劳林公式.

Taylor公式的应用1:函数值计算

计算$e^{x}$

则我们现在的关键就是计算k和r

Taylor公式的应用2:解释Gini系数

在随机数和决策森林中会提到的非常重要的概念-- Gini系数
Gini系数定义 某个类别发生的概率乘以这个类别不发生的概率,把所有类别此项相加.
已知交叉熵定义,我们用泰勒公式将f(x)=ln(x)在x=1处一阶展开为1-x,将其带入交叉熵公式中,得到交叉熵公式的近似值公式.

Taylor公式的应用3:牛顿迭代法计算平方根

梯度下降算法

牛顿法

如果我们要求f(x)的最值(最小值或最大值),即要使$f^{'}(x)=0,(f(x)即是\varphi(x))$,这时候的到式子\[X_{k+1}=X_{k}-\frac{f^{'}(X_{k})}{f^{''}(X_{k})}--牛顿法公式\]

ps:这里我们假设f(x)是一个一元函数,如果是一个多元函数,推导过程完全相同,只是此时$f^{'}(x)是一个向量,f^{''}(x)是一个Hessian矩阵$

关于Hessian矩阵

 关于牛顿法

假设红色的曲线是目标函数
假设当前找到的点是$X_{k}$,我们在此处求其切线,并且沿着切线方向在横坐标轴上移动$\alpha_{k}$的距离,这时候我们使用的算法就是梯度下降法.
给定$X_{k}$点的函数值,导数值,二阶导数值得到的抛物线,我们求这条抛物线的梯度为0(即最小值)的点$(X_{k}+d_{k})$,即牛顿法是利用二次函数做的近似而梯度下降法是利用一次函数做的近似

牛顿法特点

Hessian矩阵非正定

如图,左边是标准情况,右边是f(x,y,z...)多元目标函数二阶导数非正定的情况,如果是f(x)一元函数,则是二阶导数为负数的情况.
假设红线是目标函数,最小值点在A点,假设我们选取的$X=X_{k}$时,此时选取的点在B点,在B点使用牛顿法得到虚线,由于得到的二次曲线是一个凹函数,二阶导数为负数得到的极值点是虚线的最大值点!
为了解决这个问题,我们提出拟牛顿法的思路.

拟牛顿法

拟牛顿的思路

求Hessian矩阵的逆影响算法效率
搜索方向并非严格需要负梯度方向或者牛顿方向
可以用近似矩阵代替Hessian矩阵,只要满足矩阵正定,容易求导,或者可以通过若干步递推公式计算得到.
DFP: Davidon -Fletcher -Powell(三个数学家名字命名)
BFGS: Broyden -Fletcher -Goldfarb -Shanno

DFP

BFGS

机器学习数学|Taylor展开式与拟牛顿的更多相关文章

机器学习数学|微积分梯度jensen不等式
机器学习中的数学觉得有用的话,欢迎一起讨论相互学习~Follow Me 原创文章,如需转载请保留出处本博客为七月在线邹博老师机器学习数学课程学习笔记索引微积分,梯度和Jensen不等式 Tay ...
机器学习数学|偏度与峰度及其python实现
机器学习中的数学觉得有用的话,欢迎一起讨论相互学习~Follow Me 原创文章,如需转载请保留出处本博客为七月在线邹博老师机器学习数学课程学习笔记矩对于随机变量X,X的K阶原点矩为 \[E( ...
机器学习数学知识中令人费解的notation符号注解
$argmin_xf(x), min(f(x))$ $min(f(x))$的意思是函数$f(x)$的最小值 $argmin$的意思是返回使得表达式取得最小值时对应的输入变量值.例如$argmin_xf ...
拟牛顿 DFP matlab
function sevnn x=[1,0]'; [x,val]=dfp('fun','gfun',x) end function f=fun(x) f=100*(x(1)^2-x(2))^2+(x( ...
【原创】牛顿法和拟牛顿法 -- BFGS, L-BFGS, OWL-QN
数据.特征和数值优化算法是机器学习的核心,而牛顿法及其改良(拟牛顿法)是机器最常用的一类数字优化算法,今天就从牛顿法开始,介绍几个拟牛顿法算法.本博文只介绍算法的思想,具体的数学推导过程不做介绍. 1 ...
机器学习之Adaboost与XGBoost笔记
提升的概念提升是一个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中:如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升(Gra ...
一些对数学领域及数学研究的个人看法（转载自博士论坛wcboy）
转自:http://www.math.org.cn/forum.php?mod=viewthread&tid=14819&extra=&page=1 原作者: wcboy 现在 ...
机器学习——XGBoost大杀器，XGBoost模型原理，XGBoost参数含义
0.随机森林的思考随机森林的决策树是分别采样建立的,各个决策树之间是相对独立的.那么,在我们得到了第k-1棵决策树之后,能否通过现有的样本和决策树的信息, 对第m颗树的建立产生有益的影响呢?在随机森 ...
机器学习相关知识整理系列之三：Boosting算法原理，GBDT&XGBoost
1. Boosting算法基本思路提升方法思路:对于一个复杂的问题,将多个专家的判断进行适当的综合所得出的判断,要比任何一个专家单独判断好.每一步产生一个弱预测模型(如决策树),并加权累加到总模型中 ...

随机推荐

移动HTNL5前端框架—MUI
前言 JRedu 鉴于之前的很多前端框架(特别是响应式布局的框架),UI控件看起来太像网页,没有原生感觉,因此追求原生UI也是MUI的重要目标.MUI以iOS平台UI为基础,补充部分Andro ...
关于Elixir游戏服设计系列
写着写着就废球了,感觉空对空,实在没什么意思. 另外很快就要搞新项目,决定新项目就直接上elixir了.目前该做的准备工作已经探索了一些了. 以下的东西是写给同事参考的,感兴趣的可以看看,提建议更好. ...
学习如何看懂SQL Server执行计划（一）——数据查询篇
一.数据查询部分 1. 看到执行计划有两种方式,对sql语句按Ctrl+L,或按Ctrl+M打开显示执行计划窗口每次执行sql都会显示出相应的执行计划 2. 执行计划的图表是从右向左看的 3. SQL ...
java 连接数据库测试类
import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import ...
Windows 10新功能
Windows 10 中面向开发人员的新增功能 Windows 10 及新增的开发人员工具将提供新通用 Windows 平台支持的工具.功能和体验.在 Windows 10 上安装完工具和 SDK后, ...
linux 守护进程编程
概述: Daemon运行在后台也称作"后台服务进程". 它是没有控制终端与之相连的进程.它独立于控制终端.通常周期的执行某种任务. 守护进程脱离终端是为了避免进程在执行过程中的信息 ...
hashlib模块--摘要算法
算法介绍: Python的hashlib提供了常见的摘要算法:MD5,SHA()等. 摘要算法,又称哈希算法,散列算法.通过一个函数,吧任意长度的字符串转换为固定长度的字符串(16进制) 摘要算法就是 ...
面向接口编程实现不改代码实现Redis单机/集群之间的切换
开发中一般使用Redis单机,线上使用Redis集群,因此需要实现单机和集群之间的灵活切换 pom配置:  <dependency> < ...
HTTPS和HTTP有什么区别？如何将HTTP转化成HTTPS
不知道大家有没有注意到输入网址时的HTTP部分,在打开网站进行操作时有时候会自动跳转为HTTPS格式,这是为什么?HTTP与HTTPS到底有什么区别?如何将HTTP转化成HTTPS,针对这些问题,我们 ...
Mysql编写sql语句的小技巧
1.查询数据(保证查询性能) SELECT * 和 SELECT t.id , t.name:后者性能其实总体优于前者. 2.在查询的时候最好给表起个别名,方便找到表中要查询的字段.执行sql的进行 ...

机器学习数学|Taylor展开式与拟牛顿

机器学习中的数学

觉得有用的话,欢迎一起讨论相互学习~Follow Me

Taylor 展式与拟牛顿

索引

taylor展式

牛顿法

Taylor公式

Taylor公式的应用1:函数值计算

计算\(e^{x}\)

Taylor公式的应用2:解释Gini系数

Taylor公式的应用3:牛顿迭代法计算平方根

梯度下降算法

牛顿法

牛顿法特点

Hessian矩阵非正定

拟牛顿法

拟牛顿的思路

DFP

BFGS

机器学习数学|Taylor展开式与拟牛顿的更多相关文章

随机推荐

热门专题