机器学习中的数学

觉得有用的话,欢迎一起讨论相互学习~Follow Me

原创文章,如需转载请保留出处

本博客为七月在线邹博老师机器学习数学课程学习笔记

Taylor 展式与拟牛顿

索引

taylor展式

  • 计算函数值
  • 解释gini系数公式
  • 平方根公式

    牛顿法

  • 梯度下降算法
  • 拟牛顿法
  • DFP
  • BFGS

Taylor公式

  • 如果函数在x0点可以计算n阶导数,则有Taylor展开
  • 如果取x0=0,则有Taylor的麦克劳林公式.

Taylor公式的应用1:函数值计算

计算\(e^{x}\)

  • 则我们现在的关键就是计算k和r

Taylor公式的应用2:解释Gini系数

  • 在随机数和决策森林中会提到的非常重要的概念-- Gini系数
  • Gini系数定义 某个类别发生的概率乘以这个类别不发生的概率,把所有类别此项相加.
  • 已知交叉熵定义,我们用泰勒公式将f(x)=ln(x)在x=1处一阶展开为1-x,将其带入交叉熵公式中,得到交叉熵公式的近似值公式.

Taylor公式的应用3:牛顿迭代法计算平方根

梯度下降算法

牛顿法

  • 如果我们要求f(x)的最值(最小值或最大值),即要使\(f^{'}(x)=0,(f(x)即是\varphi(x))\),这时候的到式子\[X_{k+1}=X_{k}-\frac{f^{'}(X_{k})}{f^{''}(X_{k})}--牛顿法公式\]

  • ps:这里我们假设f(x)是一个一元函数,如果是一个多元函数,推导过程完全相同,只是此时\(f^{'}(x)是一个向量,f^{''}(x)是一个Hessian矩阵\)

关于Hessian矩阵

关于牛顿法

  • 假设红色的曲线是目标函数
  • 假设当前找到的点是\(X_{k}\),我们在此处求其切线,并且沿着切线方向在横坐标轴上移动\(\alpha_{k}\)的距离,这时候我们使用的算法就是梯度下降法.
  • 给定\(X_{k}\)点的函数值,导数值,二阶导数值得到的抛物线,我们求这条抛物线的梯度为0(即最小值)的点\((X_{k}+d_{k})\),即牛顿法是利用二次函数做的近似而梯度下降法是利用一次函数做的近似

牛顿法特点

Hessian矩阵非正定

  • 如图,左边是标准情况,右边是f(x,y,z...)多元目标函数二阶导数非正定的情况,如果是f(x)一元函数,则是二阶导数为负数的情况.
  • 假设红线是目标函数,最小值点在A点,假设我们选取的\(X=X_{k}\)时,此时选取的点在B点,在B点使用牛顿法得到虚线,由于得到的二次曲线是一个凹函数,二阶导数为负数得到的极值点是虚线的最大值点!
  • 为了解决这个问题,我们提出拟牛顿法的思路.

拟牛顿法

拟牛顿的思路

  • 求Hessian矩阵的逆影响算法效率
  • 搜索方向并非严格需要负梯度方向或者牛顿方向
  • 可以用近似矩阵代替Hessian矩阵,只要满足矩阵正定,容易求导,或者可以通过若干步递推公式计算得到.
  • DFP: Davidon -Fletcher -Powell(三个数学家名字命名)
  • BFGS: Broyden -Fletcher -Goldfarb -Shanno

DFP

BFGS

机器学习数学|Taylor展开式与拟牛顿的更多相关文章

  1. 机器学习数学|微积分梯度jensen不等式

    机器学习中的数学 觉得有用的话,欢迎一起讨论相互学习~Follow Me 原创文章,如需转载请保留出处 本博客为七月在线邹博老师机器学习数学课程学习笔记 索引 微积分,梯度和Jensen不等式 Tay ...

  2. 机器学习数学|偏度与峰度及其python实现

    机器学习中的数学 觉得有用的话,欢迎一起讨论相互学习~Follow Me 原创文章,如需转载请保留出处 本博客为七月在线邹博老师机器学习数学课程学习笔记 矩 对于随机变量X,X的K阶原点矩为 \[E( ...

  3. 机器学习数学知识中令人费解的notation符号注解

    $argmin_xf(x), min(f(x))$ $min(f(x))$的意思是函数$f(x)$的最小值 $argmin$的意思是返回使得表达式取得最小值时对应的输入变量值.例如$argmin_xf ...

  4. 拟牛顿 DFP matlab

    function sevnn x=[1,0]'; [x,val]=dfp('fun','gfun',x) end function f=fun(x) f=100*(x(1)^2-x(2))^2+(x( ...

  5. 【原创】牛顿法和拟牛顿法 -- BFGS, L-BFGS, OWL-QN

    数据.特征和数值优化算法是机器学习的核心,而牛顿法及其改良(拟牛顿法)是机器最常用的一类数字优化算法,今天就从牛顿法开始,介绍几个拟牛顿法算法.本博文只介绍算法的思想,具体的数学推导过程不做介绍. 1 ...

  6. 机器学习之Adaboost与XGBoost笔记

    提升的概念 提升是一个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中:如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升(Gra ...

  7. 一些对数学领域及数学研究的个人看法(转载自博士论坛wcboy)

    转自:http://www.math.org.cn/forum.php?mod=viewthread&tid=14819&extra=&page=1 原作者: wcboy 现在 ...

  8. 机器学习——XGBoost大杀器,XGBoost模型原理,XGBoost参数含义

    0.随机森林的思考 随机森林的决策树是分别采样建立的,各个决策树之间是相对独立的.那么,在我们得到了第k-1棵决策树之后,能否通过现有的样本和决策树的信息, 对第m颗树的建立产生有益的影响呢?在随机森 ...

  9. 机器学习相关知识整理系列之三:Boosting算法原理,GBDT&XGBoost

    1. Boosting算法基本思路 提升方法思路:对于一个复杂的问题,将多个专家的判断进行适当的综合所得出的判断,要比任何一个专家单独判断好.每一步产生一个弱预测模型(如决策树),并加权累加到总模型中 ...

随机推荐

  1. GitHub Desktop客户端打开文件乱码问题解决方案

    今天在使用GitHub Desktop客户端的时候,发添加本地仓库后文件内容显示为乱码. 1.现象  如下图所示: 2.原因分析 后来分析得知原来是由于编码不统一造成 的. 具体来说,我在window ...

  2. NOIP2017SummerTraining0712

    个人感受:打了三个小时不到的第一题,然后也就没有多少时间去搞第二题了,特别是第二题还看到了期望这样的东西,这个难以理解,第三题的树分治,myx大佬说50分好拿,但是我觉得也挺难拿的. 单词检索 时间限 ...

  3. DOM中的parentNode总结

    <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...

  4. MyBatis Generator代码自动生成工具的使用

    MyBatis Generator MyBatis Generator有三种使用方式,分别是maven插件形式.命令行形式以及eclipse插件形式.我在这里使用的是命令行的形式(主要是命令行形式比较 ...

  5. python检查IP地址正确性

    一.自动动手,丰衣足食 #encoding=utf-8 import os,sys def check_ip(ipaddr): addr = ipaddr.strip().split('.') #切割 ...

  6. NPOI导出WPF DataGrid控件显示数据

    最近做个项目,需要导出DataGrid显示的数据,中间遇到了不少的坑,在此纪录一下,方便以后查看,也希望能给用到的人,一点帮助. 导出DataGrid显示的数据,并不是导出DataGrid的Items ...

  7. SqlBulkCopy效率低下原因分析

    看到标题 应该会奇怪 SqlBulkCopy 为什么会效率低下 场景:接手项目 数据库SQLSERVER2008R2,  目前有一张流水表单表数据超过4亿,表中建有索引,有其他模块对这个表进行查询操作 ...

  8. Linux下搭建svn服务端

    安装 使用yum安装非常简单: yum -y install subversion (压缩包安装比这麻烦的多) Tortoise本是window下客户端工具,但也可以建仓库,作为服务端.Linux只有 ...

  9. Bootstrap 禁用滚动条

    Bootstrap中禁用滚动条的方法 逻辑: 当点击弹窗按钮后,js会为body元素添加一个modal-open的类,该类主要内容如下 .modal-open .modal { overflow-x: ...

  10. Java8系列之初识

    前言:终于有机会在工作中使用高版本的Java8,但是一直没有对java8中添加的新特性进一步了解过,所以趁着这个机会学习一下,能够在编程中熟练的使用. 一.接口的改变 我们知道,在java8版本以前, ...