机器学习中的数学

觉得有用的话,欢迎一起讨论相互学习~Follow Me

原创文章,如需转载请保留出处

本博客为七月在线邹博老师机器学习数学课程学习笔记

索引

  • 微积分,梯度和Jensen不等式
  • Taylor展开及其应用
  • 常见概率分布和推导
  • 指数族分布
  • 共轭分布
  • 统计量
  • 矩估计和最大似然估计
  • 区间估计
  • Jacobi矩阵
  • 矩阵乘法
  • 矩阵分解RQ和SVD
  • 对称矩阵
  • 凸优化

微积分与梯度

  • 常数e的计算过程
  • 常见函数的导数
  • 分部积分法及其应用
  • 梯度
  • 上升/下降最快方向
  • 凸函数
  • Jensen不等式

自然常数e

引入

  • 我们知道对于公式\(y=log_{a}x\),x=1时,y=0.则我们是否能找一点a值,使得y函数在(1,0)点的导数为1呢?

    利用导数公式对\(y=log_{a}x\)求导

定理一:极限存在定理

  • 单调有界函数必有极限
  • 单调数列有上线,必有其极限

构造数列Xn证明其单调有上界

  • 又因为其有(1+1)项,则其必比2要大然而又比3要小,则\(2<X_n<3\)

定理二:两边夹定理

自然常数e的推导

  • \[自然常数e可以看做e=1+\frac{1}{1!}+\frac{1}{2!}+\frac{1}{3!}+\frac{1}{4!}+...+\frac{1}{n!}\]

微分与积分

常用函数的导数公式

分部积分法

方向导数与梯度

对于方向导数我们也可以视为\[(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}).(cos\varphi.sin\varphi)^{T}\]方向导数顾名思义既是复合函数在某一方向上的导数,表示函数在某一方向上的变化趋势。当在某一方向上的方向导数最大时,即是梯度 当 \[cos\varphi =\frac{\partial f}{\partial x}\\sin\varphi = \frac{\partial f}{\partial y}\] 时,这是方向导数取最大值,即是梯度

对于梯度我们有

  • 方向导数是各个方向上的导数
  • 偏导数连续才有梯度存在
  • 梯度的方向是方向导数中取到最大值的方向,梯度的值是方向导数的最大值


凸函数与Jsnsen不等式

  • 简而言之,即是函数的割线永远位于函数图像的上方.

一阶可微

  • 简而言之,即是函数如果是一个凸函数,且一阶可微,则过函数任意一点做函数的切线,函数的切线永远在函数的下方.

二阶可微

凸函数举例

Jensen不等式

  • Jensen不等式相当于把凸函数的概念反过来说,即是如果f是一个凸函数,任意取一个在f定义域上的(x,y)点,\(\theta\)属于[0,1].
  • 当只有x,y两个参数,即是使用 基本Jensen不等式 ,然而当推广到k个参数时, 即是表示参数的线性加权的函数值总要小于函数值的线性加权.
  • 可以将其推广到概率密度分布上,假设\(\theta\)表示是事件的概率密度K点分布即所加和为1,则函数值的期望大于期望的函数值

PS:这都是在f是凸函数的状况下!

  • Jensen不等式是所有不等式的基础,所有不等式都能看做是Jensen不等式利用不同的凸函数推导出来的.

课程传送门

机器学习数学|微积分梯度jensen不等式的更多相关文章

  1. 归并排序、jensen不等式、非线性、深度学习

    前言 在此记录一些不太成熟的思考,希望对各位看官有所启发. 从题目可以看出来这篇文章的主题很杂,这篇文章中我主要讨论的是深度学习为什么要"深"这个问题.先给出结论吧:"深 ...

  2. 机器学习数学|Taylor展开式与拟牛顿

    机器学习中的数学 觉得有用的话,欢迎一起讨论相互学习~Follow Me 原创文章,如需转载请保留出处 本博客为七月在线邹博老师机器学习数学课程学习笔记 Taylor 展式与拟牛顿 索引 taylor ...

  3. coursera机器学习笔记-机器学习概论,梯度下降法

    #对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...

  4. 机器学习(1)之梯度下降(gradient descent)

    机器学习(1)之梯度下降(gradient descent) 题记:最近零碎的时间都在学习Andrew Ng的machine learning,因此就有了这些笔记. 梯度下降是线性回归的一种(Line ...

  5. 机器学习数学|偏度与峰度及其python实现

    机器学习中的数学 觉得有用的话,欢迎一起讨论相互学习~Follow Me 原创文章,如需转载请保留出处 本博客为七月在线邹博老师机器学习数学课程学习笔记 矩 对于随机变量X,X的K阶原点矩为 \[E( ...

  6. 数学分析中jensen不等式由浅入深进行教学(转)

    中国知网:数学分析中Jensen不等式由浅入深进行教学

  7. Jensen 不等式

    若f(x)为区间I上的下凸(上凸)函数,则对于任意xi∈I和满足∑λi=1的λi>0(i=1,2,...,n),成立: \[f(\sum ^{n} _{i=1} \lambda _{i}x_{i ...

  8. POJ 1183 反正切函数的应用(数学代换,基本不等式)

    题目链接:http://poj.org/problem?id=1183 这道题关键在于数学式子的推导,由题目有1/a=(1/b+1/c)/(1-1/(b*c))---------->a=(b*c ...

  9. 【数学基础篇】---详解极限与微分学与Jensen 不等式

    一.前述 数学基础知识对机器学习还有深度学习的知识点理解尤为重要,本节主要讲解极限等相关知识. 二.极限 1.例子 当 x 趋于 0 的时候,sin(x) 与 tan(x) 都趋于 0. 但是哪一个趋 ...

随机推荐

  1. 如何创建一个Django项目

    Django 软件框架 软件框架是由其中的各个模块组成,每个模块负责特定的功能,模块与模块之间相互协作来完成软件开发. MVC简介 MVC框架的核心思想是:解耦,让不同的代码块之间降低耦合,增强代码的 ...

  2. java数据库编程之数据库的设计

    第一章:数据库的设计 1.1:为什么需要规范数据库的设计 1.1.1:什么是数据库设计 数据库设计就是将数据中的数据实体及这些数据实体之间的关系,进行规范和结构的过程. 1.1.2:数据库设计非常重要 ...

  3. 初学者易上手的SSH-struts2 01环境搭建

    首先,SSH不是一个框架,而是多个框架(struts+spring+hibernate)的集成,是目前较流行的一种Web应用程序开源集成框架,用于构建灵活.易于扩展的多层Web应用程序. 集成SSH框 ...

  4. HDU1068 二分匹配 独立集

    前边和后边性别不同!!!不然NP了 Girls and Boys Problem Description the second year of the university somebody star ...

  5. RESTful API 架构解读

    RESTful API 架构解读 首先我们还是先介绍下 RESTful api 的来龙去脉. 首先, RESTful (下文都简称 RESTful api 为 RESTful ) 1.RESTful ...

  6. SqlServer和Oracle中一些常用的sql语句5 流程控制语句

    --在sql语句中 begin...end 用来设定一个程序块 相关于c#中的{} declare @yz real,@w int --声明变量 set @w=120 --为变量赋值 if @w< ...

  7. JS中的作用域以及全局变量的问题

    一. JS中的作用域 1.全局变量:函数外声明的变量,称为全部变量 局部变量:函数内部使用var声明的变量,称为局部变量在JS中,只有函数作用域,没有块级作用域!!!也就是说,if/for等有{}的结 ...

  8. SQL server 数据库备份大

    首先简单的介绍一下Sql server 备份的类型有: 1:完整备份(所有的数据文件和部分的事务日志文件) 2:差异备份(最后一次完成备份后数据库改变的部分) 3:文件和文件组备份(对指定的文件和文件 ...

  9. MYSQL数据库引擎区别详解

    数据库引擎介绍 MySQL数据库引擎取决于MySQL在安装的时候是如何被编译的.要添加一个新的引擎,就必须重新编译MYSQL.在缺省情况下,MYSQL支持三个引擎:ISAM.MYISAM和HEAP.另 ...

  10. C#设计模式之八桥接模式(Bridge)【结构型】

    一.引言 今天我们要讲[结构型]设计模式的第二个模式,该模式是[桥接模式],也有叫[桥模式]的.大家第一次看到这个名称会想到什么呢?我第一次看到这个模式根据名称猜肯定是连接什么东西的.因为桥在我们现实 ...