主要内容

  • 矩阵
  • 特征值和特征向量
  • 矩阵求导

矩阵

SVD的提法

  • 奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法,可以看做对称方阵在任意矩阵上的推广。

  • 假设A是一个\(m\times n\)阶实矩阵,则存在一个分解使得:

    • 通常将奇异值从大到小排列,这样\(\sum\)就能由A唯一确定了。
  • 与特征值、特征向量的概念相对应

    • \(\sum\)在对角线上的元素称为矩阵A的奇异值;
    • U的第i列称为A的关于的左奇异向量;
    • V的第i列称为A的关于的右奇异向量。

例子:


线性代数

方阵的行列式

  • 一阶方阵的行列式为该元素本身

  • n阶方阵的行列式等于它的任意行(或列)的各元素与其对应的代数余子式乘积之和

  • \(2\times 2\)的方阵

代数余子式

在n阶行列式D中划去任意选定的k行、k列后,余下的元素按原来顺序组成的n-k阶行列式M,称为行列式D的k阶子式A的余子式。如果k阶子式A在行列式D中的行和列的标号分别为i1,i2,…,ik和j1,j2,…,jk。则在A的余子式M前面添加符号:

后,所得到的n-k阶行列式,称为行列式D的k阶子式A的代数余子式。

伴随矩阵

对于\(n\times n\)方阵的任意元素\(a_{ij}\)都有各自的代数余子式\(A_{ij}=(-1)^{i+j}M_{ij}\),构造\(n \times n\)的方阵\(A^*\);

\(A^*\)是A的伴随矩阵。

方阵的逆

范德蒙行列式Vandermonde

范德蒙行列式:

第n行是\(x_1,x_2,...,x_n\)的n-1次幂。

如果我们能使得\(x_1,x_2,...,x_n\)互不相等,那么矩阵\(D\)不为0,则存在\(D^{-1}\)

矩阵的乘法

A为\(m \times s\)阶矩阵,B为\(s\times n\)阶的矩阵,那么,\(C=A \times B\)是\(m\times n\)阶的矩阵,其中:

矩阵模型

考虑随机过程\(\pi\),它的状态有n个,用1~n表示。记在当前时刻t时刻时位于i状态,它在t+1时刻处于j状态的概率为P(i,j)=P(j|i)。

即状态转移的概率只依赖于前一个状态

(思考马尔可夫过程?)

举例:

假定按照经济状况将人群分为上中下三个阶层,用123表示。假定当前处于某阶层只和上一代有关,即,考察父代为第i阶层,则子代为第j阶层的概率。假定为如下转移概率矩阵:

图解为:

概率转移矩阵

第n+1代处于第j个阶层的概率为:

矩阵P即为(条件)概率转移矩阵。

第i行元素表示,在上一状态为i时的分布概率,每一行元素的和为1.

那么思考:初始概率分布对最终分布的影响?

Think!

初始概率\(\pi =[0.21,0.68,0.1]\)迭代

初始概率\(\pi =[0.75,0.15,0.1]\)迭代

平稳分布

初始概率不同,但经过若干次迭代,\(\pi\)最终稳定收敛在某个分布上。这是转移概率矩阵P的性质,而非初始分布的性质。

上例中,矩阵P的n次幂,每行都是,这实际上就是特征向量。

如果一个非周期马尔可夫随机过程具有转移概率矩阵P,且它的任意两个状态都是连通的,则存在,记作

In Fect,下面两种写法等价:

同时,若某概率分布\(\pi P=\pi\),说明

  • 该多项分布是状态转移矩阵P的平稳分布;

矩阵和向量的乘法

矩阵和向量的乘法应用

矩阵的秩

在\(m\times n\)矩阵A中,任取k行k列,不改变这\(k^2\)个元素在A中的次序,得到k阶方阵,称为矩阵A的k阶子式。

设在矩阵A中有一个不等于0的r阶子式D,且所有r+1阶子式(如果存在)全等于0,那么,D称为A的最高阶非零子式,r称为A的秩,记作R(A)=r

秩与线性方程组解的关系


推论

  • Ax=0有非零解的充要条件是R(A)<n
  • Ax=b有解的充要条件是R(A)=R(A,b)

向量组等价

系数矩阵

将向量组A,B所构成的矩阵依次记作\(A(a_1,a_2,...,a_m)\)和\(B(b_1,b_2,...,b_m)\),B组能由A组线性表示,即对于每个向量\(b_i\),存在\(k_{1j},k_{2j},...,k_{mj}\)

使得:

从而得到系数矩阵K

对C=AB的重新认识

由上,若\(C= A\times B\),则矩阵C的列向量由A的列向量线性表示,B即为这一表示的系数矩阵;C同样由B的行向量线性表示,A为这一表示的系数矩阵。

向量组\(B:b_1,b_2,...,b_n\)能由向量组\(A:a_1,a_2,...,a_n\)线性表示的充要条件是矩阵\(A=(a_1,a_2,...,a_n)\)的秩等于矩阵\((A,B)=(a_1,a_2,...,a_n,b_1,b_2,...,b_n)\)的秩。

正交阵

若n阶矩阵A满足\(A^TA=I\),称A为正交矩阵,简称正交阵。

I为对角线为1,其他为0的矩阵

A是正交阵,x为向量,则Ax称作正交变换。

正交变换不改变向量长度。

特征值和特征向量

A是n阶矩阵,若数\(\lambda\)和n纬非0列向量x满足\(Ax=\lambda x\),那么数\(\lambda\)称为A的特征值,x称为对应于特征值的特征向量。

特征值的性质

设n阶矩阵\(A(a_{ij})\)的特征值为\(\lambda_1,\lambda_2,...,\lambda_n\),则:

\(\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}\)

\(\lambda_1\lambda_2...\lambda_n=|A|\)

矩阵A主对角线行列式的元素和,称作矩阵A的

不同特征值对应的特征向量

  • 不同特征值对应的特征向量,线性无关。

  • 若方阵A是对称阵,结论是否加强?

引理

实对称阵的特征值是实数

应用:

将实数\(\lambda\)带入方程组\((A-\lambda I)x=0\),该方程组为实系数方程组,因此,实对称阵的特征向量可以取实向量

实对称阵的不同特征值的特征向量正交

令实对称阵为A,其两个不同的特征值\(\lambda_1 \lambda_2\)对应的特征向量分别是\(\mu_1\mu_2\);

最终结论

正定阵

对于n阶方阵A,若任意n阶向量x,都有\(x^TAx>0\)则称A是正定阵。

若条件变为\(x^TAx\ge0\),则A称作半正定阵。

类似的还有负定阵,半负定阵。

给定任意\(m\times n\)的矩阵A,证明\(A^TA\)一定是半正定阵。

正定阵的判定

  • 对称阵A为正定阵;
  • A的特征值都为正;
  • A的顺序主子式大于0;
  • 以上三个命题等价。

例题:

定义证明:

向量的导数

A为\(m\times n\)的矩阵,x为\(n \times1\)的列向量,则Ax为\(m\times1\)的列向量,记为:

推导

令:

从而:

结论与直接推广

注意

关于列向量求导,资料中有如下方案:

以上公式将会导致向量间求导得到“超越矩阵”-矩阵的每个元素仍然是一个矩阵,不利于应用。

标量对向量的导数

推导公式:

标量对方阵的导数

(邹博ML)矩阵和线性代数的更多相关文章

  1. (邹博ML)凸优化

    目录 凸集的基本概念 凸函数的基本概念 凸优化的一般提法 凸集基本概念 思考两个不能式 两个正数的算术平均数大于等于几何平均数 给定可逆对称阵Q,对于任意向量x,y,有: 思考凸集和凸函数 在机器学习 ...

  2. (邹博ML)数学分析与概率论

    机器学习入门 深度学习和机器学习? 深度学习在某种意义上可以认为是机器学习的一个分支,只是这个分支非常全面且重要,以至于可以单独作为一门学科来进行研究. 回忆知识 求解S. 对数函数的上升速度 我们使 ...

  3. Python 矩阵(线性代数)

    Python 矩阵(线性代数) 这里有一份新手友好的线性代数笔记,是和深度学习花书配套,还被Ian Goodfellow老师翻了牌. 笔记来自巴黎高等师范学院的博士生Hadrien Jean,是针对& ...

  4. (ML邹博)回归

    目录 线性回归 高斯分布 最大似然估计 最小二乘法的本质 Logistic回归 工具 梯度下降算法 最大似然估计 线性回归 对于单个变量: y=ax+b 对于多个变量: 使用极大似然估计解释最小二乘法 ...

  5. 理解矩阵与线性代数<转>

    作者:张帅链接:https://www.zhihu.com/question/21082351/answer/34361293来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出 ...

  6. loj#6040. 「雅礼集训 2017 Day5」矩阵(线性代数+递推)

    题面 传送门 题解 我的线代学得跟屎一样看题解跟看天书一样所以不要指望这题我会写题解 这里 //minamoto #include<bits/stdc++.h> #define R reg ...

  7. OPENGL之矩阵

    前面的若干重要概念中描述了OPENGL中的几个重要变换,而矩阵是线性代数中的重要数学工具,它被用来对这些变换进行数学上的实现. 矩阵主要有以下几种: 模型视图矩阵:模型视图矩阵是个4*4的矩阵,代表经 ...

  8. A Simple Math Problem(矩阵快速幂)(寒假闭关第一题,有点曲折啊)

    A Simple Math Problem Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Other ...

  9. Numpy的线性代数

    线性代数的矩阵乘法 线性代数(如矩阵乘法.矩阵分解.行列式以及其他方阵数学等)是任何数组库的重要组成部分.不想某些语言(如MATLAB), 通过*对两个二维数组相乘得到的是一个元素级的积,而不是一个矩 ...

随机推荐

  1. IDEA修改jar包中class文件后重新生成jar包

    一.背景 最新想要修改rebeyond大佬的冰蝎项目,特地去网上搜索如何修改jar包中的源码再替换回去的方法,但由于现在的一些文章写的太烂,导致走了很多弯路,因此写下这篇快速使用IDEA修改源码并替换 ...

  2. Django 页面缓存的cache_key是如何生成的

    页面缓存 e.g. @cache_page(time_out, key_prefix=key_prefix) def my_view(): ... 默认情况下,将使用配置中的default cache ...

  3. 如何报告FreeBSD 的bug?

    https://bugs.freebsd.org/bugzilla/ 注册个账号即可,请使用英语,把程序在不同程序上的运行结果列出来即可- ​​​​ 注意标记架构,如果有log还请一并附上,英语差可以 ...

  4. mongodb为什么比mysql效率高

    首先是内存映射机制,数据不是持久化到存储设备中的,而是暂时存储在内存中,这就提高了在IO上效率以及操作系统对存储介质之间的性能损耗.(毕竟内存读取最快) 其次,NoSQL并不是不使用sql,只是不使用 ...

  5. lucent,solr,ES比较

    |0什么是全文搜索 什么是全文搜索引擎? 百度百科中的定义:全文搜索引擎是目前广泛应用的主流搜索引擎.它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现 ...

  6. find文本处理(locate)实例学习记录

    find文本处理(locate)实例学习记录 (一)按文件名称查找 按照文件名称查找是 find 最常见的用法,需要注意的是,搜索的文件名必须完全匹配,才能找到对应的文件. 1. 查找当前目录下所有 ...

  7. 如何动态生成EasyUI的表头

    需求 前几天遇到了这样一个需求,在页面上展示一组数据,但是表头不固定,需要动态加载出来.比如这次查询表头有[姓名][年龄],可能下次查询表头就变成了[姓名][年龄][性别]. 思路简介 我刚刚接手这个 ...

  8. python3 中is和==的区别

    is    身份运算符,用来判断对象是否属于同一地址 (python内置函数id() 可以返回对象地址) ==  比较运算符,用于判断值是否相同

  9. sqli-labs系列——第三关

    less3 判断注入类型 这第三关有点意思,是一个带括号的数字型注入,这里需要闭合它的括号,之前遇到过很多这样的站,它的sql语句一般都是这样的: $sql = select * from user ...

  10. 创建第一个HTML文件

    首先右键新建文本文档,然后打开新建的文档,文本内容写上: <html> <head> <title>我的HTML标题</title> </head ...