title: [概率论]5-7:Gama分布(The Gamma Distributions Part II) categories: - Mathematic - Probability keywords: - The Exponential Distributions toc: true date: 2018-04-02 09:16:46 Abstract: 本文介绍Gamma分布相关知识的第二部分指数分布 Keywords: The Exponential Distributions 开篇…
title: [概率论]5-7:Gama分布(The Gamma Distributions Part I) categories: - Mathematic - Probability keywords: - The Gamma Distributions toc: true date: 2018-03-31 18:33:39 Abstract: 本文介绍Gamma函数和Gamma分布,本课第二部分介绍指数分布 Keywords: The Gamma Distributions 开篇废话 今天…
title: [概率论]5-8:Beta分布(The Beta Distributions) categories: - Mathematic - Probability keywords: - The Beta Distribution toc: true date: 2018-04-02 15:14:12 Abstract: 本文介绍Beta分布的相关知识内容 Keywords: The Beta Distribution 开篇废话 我们预测未来某件事情是否发生的主要依据是先验知识,于是我相…
title: [概率论]5-9:多项式分布(The Multinomial Distributions) categories: - Mathematic - Probability keywords: - The Multinomial Distributions toc: true date: 2018-04-04 22:17:23 Abstract: 本文介绍多项式分布的相关知识 Keywords: The Multinomial Distributions 开篇废话 生病的时候才会体会到…
title: [概率论]3-7:多变量分布(Multivariate Distributions Part II) categories: Mathematic Probability keywords: Conditional Distributions 条件分布 Bayes' Theorem 贝叶斯理论 Histograms 直方图 Law of total Probability 全概率公式 toc: true date: 2018-03-15 09:20:38 Abstract: 本文继…
title: [概率论]3-7:多变量分布(Multivariate Distributions Part I) categories: Mathematic Probability keywords: Joint Distributions 联合分布 Mixed Distributions 混合分布 Marginal Distributions 边缘分布 Independent Random Variable 独立随机变量 toc: true date: 2018-03-14 09:55:14…
title: [概率论]5-6:正态分布(The Normal Distributions Part II) categories: - Mathematic - Probability keywords: - The Normal Distributions toc: true date: 2018-03-29 15:02:03 Abstract: 本文介绍正态分布的数学性质 Keywords: The Normal Distributions 开篇废话 一共要写四篇,哪来那么多废话. 首先我…
title: [概率论]3-6:条件分布(Conditional Distributions Part II) categories: Mathematic Probability keywords: Multiplication Rule for Distributions 乘法法则 Bayes' Theorem 贝叶斯理论 Law of Total Probability for Random Variables 随机变量的全概率公式 toc: true date: 2018-03-12 0…
今天的主角是指数分布,由此导出\(\Gamma\)分布,同样,读者应尝试一边阅读,一边独立推导出本文的结论.由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢! 目录 Part 1:指数分布的参数估计 Part 2:独立同分布指数分布之和与$\Gamma$分布 Part 3:$\Gamma$分布与其他分布 Part 1:指数分布的参数估计 指数分布是单参数分布族,总体\(X\sim E(\lambda)\)有时也记作\(\mathrm{Exp}(\lambda)\),此…
什么是帕累托分布 帕累托分布是以意大利经济学家维弗雷多·帕雷托命名的. 是从大量真实世界的现象中发现的幂次定律分布.这个分布在经济学以外,也被称为布拉德福分布. 帕累托因对意大利20%的人口拥有80%的财产的观察而著名,后来被约瑟夫·朱兰和其他人概括为帕累托法则(80/20法则),后来进一步概括为帕累托分布的概念.   帕累托分布的概述 19世纪末期,意大利经济学家维弗雷多·帕累托认为,贫与富的存在,既是经济问题,也有政治原因. 帕累托在研究英国人的收入分配问题时发现,绝大部分社会财富最终总会流…
伯努利实验: 如果无穷随机变量序列  是独立同分布(i.i.d.)的,而且每个随机变量  都服从参数为p的伯努利分布,那么随机变量  就形成参数为p的一系列伯努利试验.同样,如果n个随机变量  独立同分布,并且都服从参数为p的伯努利分布,则随机变量  形成参数为p的n重伯努利试验. 伯努利试验是只有两种可能结果的单次随机试验. 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验. 一.伯努利分布: 伯努利分布亦称“零一分布”.“两点分布”.称随机变量X有…
1. Gamma函数 首先我们可以看一下Gamma函数的定义: Gamma的重要性质包括下面几条: 1. 递推公式: 2. 对于正整数n, 有 因此可以说Gamma函数是阶乘的推广. 3.  4.  关于递推公式,可以用分部积分完成证明: 2. Beta函数 B函数,又称为Beta函数或者第一类欧拉积分,是一个特殊的函数,定义如下: B函数具有如下性质: 3. Beta分布 在介绍贝塔分布(Beta distribution)之前,需要先明确一下先验概率.后验概率.似然函数以及共轭分布的概念.…
在看LDA的时候,遇到的数学公式分布有些多,因此在这里总结一下思路. 一.伯努利试验.伯努利过程与伯努利分布 先说一下什么是伯努利试验: 维基百科伯努利试验中: 伯努利试验(Bernoulli trial)是只有两种可能结果的单次随机试验. 即:对于一个随机变量而言,P(X=1)=p以及P(X=0)=1-p.一般用抛硬币来举例.另外,此处也描述了伯努利过程: 一个伯努利过程(Bernoulli process)是由重复出现独立但是相同分布的伯努利试验组成,例如抛硬币十次. 维基百科中,伯努利过程…
http://cos.name/2013/01/lda-math-gamma-function/ 1. 神奇的Gamma函数1.1 Gamma 函数诞生记学高等数学的时候,我们都学习过如下一个长相有点奇特的Gamma函数 Γ(x)=∫∞0tx−1e−tdt 通过分部积分的方法,可以推导出这个函数有如下的递归性质 Γ(x+1)=xΓ(x) 于是很容易证明,Γ(x) 函数可以当成是阶乘在实数集上的延拓,具有如下性质 Γ(n)=(n−1)! 学习了Gamma 函数之后,多年以来我一直有两个疑问: 这个…
接下来我们就对除了正态分布以外的常用参数分布族进行参数估计,具体对连续型分布有指数分布.均匀分布,对离散型分布有二项分布.泊松分布几何分布. 今天的主要内容是均匀分布的参数估计,内容比较简单,读者应尝试一边阅读,一边独立推导出本文的结论.由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢! 目录 Part 1:均匀分布的参数估计 Part 2:次序统计量 Part 3:均匀分布次序统计量与$\beta$分布 Part 1:均匀分布的参数估计 一般说来,离散分布似乎比连续…
SVM模型有两个非常重要的参数C与gamma.其中 C是惩罚系数,即对误差的宽容度.c越高,说明越不能容忍出现误差,容易过拟合.C越小,容易欠拟合.C过大或过小,泛化能力变差 gamma是选择RBF函数作为kernel后,该函数自带的一个参数.隐含地决定了数据映射到新的特征空间后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多.支持向量的个数影响训练与预测的速度. 此外大家注意RBF公式里面的sigma和gamma的关系如下: 这里面大家需要注意的就是gamma的物理意义,大…
Gamma函数 当n为正整数时,n的阶乘定义如下:n! = n * (n - 1) * (n - 2) * … * 2 * 1. 当n不是整数时,n!为多少?我们先给出答案. 容易证明,Γ(x + 1) = x * Γ(x),当n为正整数时,显然有Γ(n) = (n – 1)!. 计算(1/2)! 先给一个神奇的公式,证明不详述. (1) 定义如下函数 令上式p = 1,q = 1/2,同时根据对称性原理,有 (2) 同时容易证明 (3) 令p = 1/2,结合(2)(3)式,有 由于B关于q递…
常用连续型分布介绍及R语言实现 R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器.随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长.现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言. 要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领…
使用R拟合分布 几个常用的概率函数介绍 这里,参考R语言实战,以及[Fitting Distribution with R]的附录. 一.认识各种分布的形态 1.1 连续型随机变量的分布 首先,我们来回顾一遍各类分布函数的表达式,及其关系. 先逐一介绍与标准正态分布相关的一些分布:正态分布,卡方分布,t− 分布,F−分布,Wishart 分布. 先上个图,一睹为快. 以上几个分布之间的关系如以下结构图所示. [广义线性模型导论3rd edition,p10] 1.1.1 正态分布 正态分布N(μ…
在之前的十篇文章中,我们用了九篇文章的篇幅讨论了点估计的相关知识,现在来稍作回顾. 首先,我们讨论了正态分布两个参数--均值.方差的点估计,给出了它们的分布信息,并指出它们是相互独立的:然后,我们讨论到其他的分布族,介绍了点估计的评判标准--无偏性.相合性.有效性:之后,我们基于无偏性和相合性的讨论给出了常用分布的参数点估计,并介绍了两种常用于寻找点估计量的方法--矩法与极大似然法:最后,我们对点估计的有效性进行了讨论,给出了一些验证.寻找UMVUE的方法,并介绍了CR不等式,给出了无偏估计效率…
2019年08月31日更新 看了一篇发在NM上的文章才又明白了贝叶斯方法的重要性和普适性,结合目前最火的DL,会有意想不到的结果. 目前一些最直觉性的理解: 概率的核心就是可能性空间一定,三体世界不会有概率 贝叶斯的基础就是条件概率,条件概率的核心就是可能性空间的缩小,获取了新的信息就是个可能性空间缩小的过程 贝叶斯定理的核心就是,先验*似然=后验,有张图可以完美可视化这个定理 只要我们能得到可靠的先验或似然,任意一个,我们就能得到更可靠的后验概率 最近又在刷一个Coursera的课程:Baye…
http://blog.csdn.net/pipisorry/article/details/51525308 吉布斯采样的实现问题 本文主要说明如何通过吉布斯采样进行文档分类(聚类),当然更复杂的实现可以看看吉布斯采样是如何采样LDA主题分布的[主题模型TopicModel:隐含狄利克雷分布LDA]. 关于吉布斯采样的介绍文章都停止在吉布斯采样的详细描述上,如随机采样和随机模拟:吉布斯采样Gibbs Sampling(why)但并没有说明吉布斯采样到底如何实现的(how)? 也就是具体怎么实现…
TF.Contrib,开源社区贡献,新功能,内外部测试,根据反馈意见改进性能,改善API友好度,API稳定后,移到TensorFlow核心模块.生产代码,以最新官方教程和API指南参考. 统计分布.TF.contrib.ditributions模块,Bernoulli.Beta.Binomial.Gamma.Ecponential.Normal.Poisson.Uniform等统计分布,统计研究.应用中常用,各种统计.机器学习模型基石,概率模型.图形模型依赖. 每个不同统计分布不同特征.函数,同…
LDA算法最初的论文使用的是变分EM方法训练(Variational Inference).该方法较为复杂,而且最后训练出的topic主题非全局最优分布,而是局部最优分布.后期发明了Collapsed Gibbs Sample方法,推导和使用较为简洁. Latent Dirichlet Allocation是Blei等人于2003年提出的基于概率模型的主题模型算法,LDA是一中非监督机器学习技术,可以用于识别大规模文档集或语料库中的潜在隐藏主题信息.该方法假设每个词由背后的一个潜在隐藏的主题中抽…
本文基于Python 3.6.5的官文random编写. random模块简介 random为各种数学分布算法(distributions)实现了伪随机数生成器. 对于整数,是从一个范围中均匀选择(uniform selection): 对于序列,是从一个随机元素的均匀选择: 一个函数实现列表的随机排列(random permutation),是在列表本身实现了(in-place,改变了列表),而用于随机采样(random sampling)的函数则没有对列表本身进行更改. On the rea…
虽然网络上已经有了很多的类似的东西了吧.但是呢,我自己还是要写一写的. 安装: 对于 libsvm工具包,我们可以去官方网站下载,网址为:http://www.csie.ntu.edu.tw/~cjlin/libsvm/,这上面有很好的介绍. 我下载的版本为 libsvm-3.22.下载完了以后,可以查看到文件夹里面的内容.(其中,的一个heart_scale的matlab格式的文件是我自己在网上下载的) 里面的 matlab文件夹里的内容就是我们要用到的内容(里面有的文件我已经编译好了,即 .…
前面的文章已经介绍了一个回归和一个分类的例子.在逻辑回归模型中我们假设: 在分类问题中我们假设: 他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族. 指数分布族(The Exponential Family) 如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族: 公式中y是随机变量:h(x)称为基础度量值(base measure): η称为分布的自然参数(natural parameter),也称为标准参数(canonical parameter): T(…
本文主要介绍支持向量机理论推导及其工程应用. 1 基本介绍 支持向量机算法是一个有效的分类算法,可用于分类.回归等任务,在传统的机器学习任务中,通过人工构造.选择特征,然后使用支持向量机作为训练器,可以得到一个效果很好的base-line训练器. 支持向量机具有如下的优缺点, 优点: 高维空间有效: 维度大于样本数量的情况下,依然有效: 预测时使用训练样本的子集(也即支持向量),节省内存: 可以使用不同的核函数用于决策: 缺点: 如果特征的数目远远大于样本的数目,性能将会降低: 不能直接提供概率…
本文对应<R语言实战>第4章:基本数据管理:第5章:高级数据管理 创建新变量 #建议采用transform()函数 mydata <- transform(mydata, sumx = x1 + x2, meanx = (x1 + x2)/2) 重编码 < 小于 <= 小于或等于 > 大于 >= 大于或等于 == 严格等于(比较浮点类型时慎用,易误判) != 不等于 !x 非x x | y x或y x & y x和y isTRUE(x) x是否为TRUE…