作者:桂. 时间:2017-03-21  07:25:17 链接:http://www.cnblogs.com/xingshansi/p/6592599.html 声明:欢迎被转载,不过记得注明出处哦~ 前言 本文为曲线拟合与分布拟合系列的一部分,主要讲解混合拉普拉斯分布(Laplace Mixture Model,LMM).拉普拉斯也是常用的统计概率模型之一,网上关于混合高斯模型(GMM)的例子很多,而关于LMM实现的很少.其实混合模型都可以用EM算法推导,只是求闭式解的运算上略有差别,全文包…
[论文标题]Sparse Probabilistic Matrix Factorization by Laplace Distribution for Collaborative Filtering     (24th-IJCAI ) (Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence (IJCAI 2015) ) [论文作者]Liping Jing, PengWa…
拉普拉斯分布的定义与基本性质 其分布函数为 分布函数图 其概率密度函数为 密度函数图 拉普拉斯分布与正太分布的比较 从图中可以直观的发现拉普拉斯分布跟正太分布很相似,但是拉普拉斯分布比正太分布有尖的峰和轻微的厚尾.…
之前那篇文章里提到,L1其实是加上服从拉普拉斯分布的先验,L2是加上服从高斯分布的先验: http://www.cnblogs.com/charlesblc/p/7977732.html 那么记住拉普拉斯的公式和高斯的公式: 拉普拉斯(Laplace) 高斯(Gaussian)分布…
作者:桂. 时间:2017-03-20  06:20:54 链接:http://www.cnblogs.com/xingshansi/p/6584555.html 声明:欢迎被转载,不过记得注明出处哦~ 前言 本文是曲线拟合与分布拟合系列的一部分,主要总结混合高斯模型(Gaussian Mixture Model,GMM),GMM主要基于EM算法(前文已经推导),本文主要包括: 1)GMM背景介绍: 2)GMM理论推导: 3)GMM代码实现: 内容多有借鉴他人,最后一并给出链接. 一.GMM背景…
Laplace分布的概率密度函数的形式是这样的: $p(x) = \frac{1}{2 \lambda} e^{-\frac{\vert x –\mu \vert}{\lambda}}$   一般$\mu$的取值为0,所以形式如下: $p(x) = \frac{1}{2 \lambda} e^{-\frac{\vert x \vert}{\lambda}}$ 它是由两个指数函数组成的,所以又叫做双指数函数分布(double exponential distribution) 均值和方差 均值的求…
当概率模型依赖于无法观测的隐性变量时,使用普通的极大似然估计法无法估计出概率模型中参数.此时需要利用优化的极大似然估计:EM算法. 在这里我只是想要使用这个EM算法估计混合高斯模型中的参数.由于直观原因,采用一维高斯分布. 一维高斯分布的概率密度函数表示为: 多个高斯分布叠加在一起形成混合高斯分布: 其中:k 表示一共有 k 个子分布,.为什么累加之和为 1?因为哪怕是混合模型也表示一个概率密度,从负无穷到正无穷积分概率为 1,所以只有累加之和为 1才能保证,很简单的推导. 设总体 ξ,总体服从…
最小二乘法可以从Cost/Loss function角度去想,这是统计(机器)学习里面一个重要概念,一般建立模型就是让loss function最小,而最小二乘法可以认为是 loss function = (y_hat -y )^2的一个特例,类似的像各位说的还可以用各种距离度量来作为loss function而不仅仅是欧氏距离.所以loss function可以说是一种更一般化的说法. 最大似然估计是从概率角度来想这个问题,直观理解,似然函数在给定参数的条件下就是观测到一组数据realizat…
本文作为em算法在图模型中的一个应用,推导plsa的em算法. 1 em算法 em算法是解决一类带有隐变量模型的参数估计问题. 1.1 模型的定义 输入样本为,对应的隐变量为.待估计的模型参数为,目标为极大化似然函数 对于上式的优化,不能通过直接对进行求导,因为一旦求导,就有如下的形式: 显然是不好求的.  1.2 em算法的迭代过程 a. 初始化:随机初始参数的  b. E step:             计算隐变量的后验分布  c. M step:           迭代参数    …
目标函数 Lasso相当于带有L1正则化项的线性回归.先看下目标函数:RSS(w)+λ∥w∥1=∑Ni=0(yi−∑Dj=0wjhj(xi))2+λ∑Dj=0∣wj∣RSS(w)+λ∥w∥1=∑i=0N(yi−∑j=0Dwjhj(xi))2+λ∑j=0D∣wj∣ RSS(w)+\lambda \Vert w\Vert_1=\sum_{i=0}^{N}(y_i-\sum_{j=0}^D{w_jh_j(x_i)})^2+\lambda \sum_{j=0}^{D}|w_j| RSS(w)+λ∥w∥1…
统计工作中几个常用用法在python统计函数库scipy.stats的使用范例. 正态分布以正态分布的常见需求为例了解scipy.stats的基本使用方法. 1.生成服从指定分布的随机数 norm.rvs通过loc和scale参数可以指定随机变量的偏移和缩放参数,这里对应的是正态分布的期望和标准差.size得到随机数数组的形状参数.(也可以使用np.random.normal(loc=0.0, scale=1.0, size=None)) In [4]: import numpy as np I…
1. Γ(⋅) 函数 Γ(α)=∫∞0tα−1e−tdt 可知以下基本性质: Γ(α+1)=αΓ(α) Γ(1)=1 ⇒ Γ(n+1)=n! Γ(12)=π√ 2. 指数幂分布(exponential power distribution) f(x)=12q+1qΓ(q+1q)σexp(−12∣∣x−μσ∣∣2) 之所以说,指数幂分布是一种对正态分布的推广, q=2 ⇒ 正态分布 q=1 ⇒ 拉普拉斯分布…
作者:桂. 时间:2017-03-22  06:13:50 链接:http://www.cnblogs.com/xingshansi/p/6597796.html 声明:欢迎被转载,不过记得注明出处哦~ 前言 分布拟合与曲线拟合系列本想简单梳理,却啰嗦的没完没了.本文主要介绍:多直线的拟合,多曲线可以依次类推.全文主要包括: 1)背景介绍 2)理论推导 3)代码实现 4)关于拟合的思考 内容多有借鉴他人,最后一并附上链接. 一.背景介绍 对于单个直线,可以借助MLE或者最小二乘进行求参,对于多条…
作者:桂. 时间:2017-03-22  06:13:50 链接:http://www.cnblogs.com/xingshansi/p/6597796.html 声明:欢迎被转载,不过记得注明出处哦~ 前言 分布拟合与曲线拟合系列本想简单梳理,却啰嗦的没完没了.本文主要介绍:多直线的拟合,多曲线可以依次类推.全文主要包括: 1)背景介绍 2)理论推导 3)代码实现 4)关于拟合的思考 内容多有借鉴他人,最后一并附上链接. 一.背景介绍 对于单个直线,可以借助MLE或者最小二乘进行求参,对于多条…
1. 偏差与方差 - 机器学习算法泛化性能分析 在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去改进从而使下次得到的model更加令人满意呢? ”偏差-方差分解(bias-variance decomposition)“是解释学习算法泛化能力性能的一种重要工具.偏差-方差分解试图对学习算法的期望泛化错误率进行拆解. 假设测试样本为x,yd 为 x 在数据集中的标记(注意,有可能出现噪声使得 y…
100道AI基础面试题 1.协方差和相关性有什么区别? 解析: 相关性是协方差的标准化格式.协方差本身很难做比较.例如:如果我们计算工资($)和年龄(岁)的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差. 为了解决这个问题,我们计算相关性来得到一个介于-1和1之间的值,就可以忽略它们各自不同的度量. 2.xgboost如何寻找最优特征?是有放回还是无放回的呢? 解析: xgboost在训练的过程中给出各个特征的增益评分,最大增益的特征会被选出来作为分裂依据, 从而记忆…
 相关论文的链接:Combining Sketch and Tone for Pencil Drawing Production 第一次看<Combining Sketch and Tone for Pencil Drawing Production>一文是在两年前,随意看了一下,觉得论文里的公式比较多,以为实现有一定的难度,没有去细究,最近在作者主页上看到有 [code of direction classification] 部分代码,下载后觉得还是有自己实现的可能,下面记录下自己实现过程…
一.引言 ICA主要用于解决盲源分离问题.需要假设源信号之间是统计独立的.而在实际问题中,独立性假设基本是合理的. 二.随机变量独立性的概念 对于任意两个随机变量X和Y,如果从Y中得不到任何关于X的信息,反之亦然,则可称随机变量X和Y是相互独立的.如,两个不同的物理过程产生的随机信号就是相互独立的. 从数学的角度讲,随机变量X和Y统计独立,当且仅当他们的联合概率密度可以分解为边缘密度的乘积,即 $ P(x,y) = P_X(x)P_Y(y) $ 三.ICA的定义 ICA使得被分析信号各成分之间的…
主讲人 网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:59:22  大家好,今天一起交流下PRML第7章.第六章核函数里提到,有一类机器学习算法,不是对参数做点估计或求其分布,而是保留训练样本,在预测阶段,计算待预测样本跟训练样本的相似性来做预测,例如KNN方法. 将线性模型转换成对偶形式,就可以利用核函数来计算相似性,同时避免了直接做高维度的向量内积运算.本章是稀疏向量机,同样基于核函数,用训练样本直接对新样本做预测,而且只使用了少量训练样本,所以具有稀疏性,叫sp…
time:2015年10月04日 星期日 00时00分27秒 # opencv笔记4:模板运算和常见滤波操作 这一篇主要是学习模板运算,了解各种模板运算的运算过程和分类,理论方面主要参考<图像工程--图像处理>(章毓晋)一书第3章,空域增强:模板操作.同时也有个疑问:此书第四章,频域图像增强,讲了低通滤波和高通滤波,然而这些东西和模板运算中的平滑.锐化操作有什么区别?... 以下是正文: 模板运算 首先我们把所有图像看作矩阵. 模板一般是nxn(n通常是3.5.7.9等很小的奇数)的矩阵.模板…
作者:桂. 时间:2017-05-22  15:28:43 链接:http://www.cnblogs.com/xingshansi/p/6890048.html 前言 本文主要是线性回归模型,包括: 1)普通最小二乘拟合 2)Ridge回归 3)Lasso回归 4)其他常用Linear Models. 一.普通最小二乘 通常是给定数据X,y,利用参数进行线性拟合,准则为最小误差: 该问题的求解可以借助:梯度下降法/最小二乘法,以最小二乘为例: 基本用法: from sklearn import…
作者:桂. 时间:2017-05-25  10:14:21 主要是<Speech enhancement: theory and practice>的读书笔记,全部内容可以点击这里. 书中代码:http://pan.baidu.com/s/1hsj4Wlu,提取密码:9dmi 前言 最近学习有一点体会,每一个学科的理论模型都提供了解决问题的思路,一个没有受过教育又迷信权威的头脑,难以从抽象的角度去认识.理解问题,自然科学传递了这样一套思维.例如之前的谱减法,就是具体问题具体分析;维纳滤波,表达…
学习总结于国立台湾大学 :李宏毅老师 Author: Ian Goodfellow • Paper: https://arxiv.org/abs/1701.00160 • Video: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems-Conference/Neural-Information-Processing-Systems-Conference-NIPS-2016/Generative-Adver…
TensorFlow API 汉化 模块:tf   定义于tensorflow/__init__.py. 将所有公共TensorFlow接口引入此模块. 模块 app module:通用入口点脚本. bitwise module:操作整数二进制表示的操作. compat module:Python 2与3兼容的函数. contrib module:包含易失性或实验代码的contrib模块. datamodule:tf.data.Dataset输入管道的API. debugging module:…
作者:桂. 时间:2017-05-22  15:28:43 链接:http://www.cnblogs.com/xingshansi/p/6890048.html 前言 主要记录python工具包:sci-kit learn的基本用法. 本文主要是线性回归模型,包括: 1)普通最小二乘拟合 2)Ridge回归 3)Lasso回归 4)其他常用Linear Models. 一.普通最小二乘 通常是给定数据X,y,利用参数进行线性拟合,准则为最小误差: 该问题的求解可以借助:梯度下降法/最小二乘法,…
K-SVD可以看做K-means的一种泛化形式,K-means算法总每个信号量只能用一个原子来近似表示,而K-SVD中每个信号是用多个原子的线性组合来表示的.    K-SVD算法总体来说可以分成两步,首先给定一个初始字典,对信号进行稀疏表示,得到系数矩阵.第二步根据得到的系数矩阵和观测向量来不断更新字典. 设D∈R n×K,包含了K个信号原子列向量的原型{dj}j=1K,y∈R n的信号可以表示成为这些原子的稀疏线性结合.也就是说y=Dx,其中x∈RK表示信号y的稀疏系数.论文中采用的是2范数…
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读,方可全面了解LR): (1).https://zhuanlan.zhihu.com/p/74874291 (2).逻辑回归与交叉熵 (3).https://www.cnblogs.com/pinard/p/6029432.html (4).https://zhuanlan.zhihu.com/p/76563562 (5).https://www.cnblogs.com/ModifyRong/p/7739955.html 一.逻辑回归介…
正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束.调整或缩小.也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险. 一.数学基础 1. 范数 范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小.范数的一般化定义:对实数p>=1, 范数定义如下:   L1范数 当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和. L2范数 当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得距离…
最优化方法:L1和L2正则化regularization http://blog.csdn.net/pipisorry/article/details/52108040 机器学习和深度学习常用的规则化方法之一:L范数正则化(规格化). 一般来说,监督学习可以看做最小化下面的目标函数): 规则项Ω(w) loss项可参考[机器学习算法及其损失函数].Note:似然函数(likelihood function)的负对数被叫做误差函数(error function). 这里我们先把目光转向“规则项Ω(…
正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束.调整或缩小.也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险. 一.数学基础 1. 范数 范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小.范数的一般化定义:对实数p>=1, 范数定义如下:     L1范数 当p=1时,是L1范数,其表示某个向量中所有元素绝对值的和. L2范数 当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得…