注:上一小节总结了离散型随机变量,这个小节总结连续型随机变量.离散型随机变量的可能取值只有有限多个或是无限可数的(可以与自然数一一对应),连续型随机变量的可能取值则是一段连续的区域或是整个实数轴,是不可数的.最常见的一维连续型随机变量有三种:均匀分布,指数分布和正态分布.下面还是主要从概述.定义.主要用途和Python的实现几个方面逐一描述. 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: import numpy as np from scipy import st…
基本概念 样本空间: 随机试验E的所有可能结果组成的集合, 为E的样本空间, 记为S 随机事件: E的样本空间S的子集为E的随机事件, 简称事件, 由一个样本点组成的单点集, 称为基本事件 对立事件/逆事件: 若A并B=S, 且A交B=空, 则称A与B互为逆事件, A与B互为对立事件. A上面加一横即A的逆事件 频率: 在相同的条件下进行了n次试验, 事件A发生的次数为A的频数, 与n的比值成为A的频率 概率: 设E为随机试验, S是E的样本空间, 对于E的每一个事件A赋予一个实数, 记为P(A…
在利用基本的概率论模型解决实际问题的时候,我们很容易发现一些随机变量的连续分布的,例如火车进站的时间.台灯的寿命等一些和时间相关的随机变量,此时我们发现我们难以求出某个点的概率了,因为随机变量是连续的,基本事件空间是一个无穷的空间,而与无限.连续这些字眼相关,很自然的想到,这里我们要借助积分的工具. 现在我们面临的问题是,如何用上积分这个工具呢?我们假想一条曲线f(x)和连续随机变量的取值区间[a,b]围成了一个面积为1的曲边梯形,(之所以控制面积为1,是为了满足分布列的基本性质),那么对于P(…
在讨论连续型随机变量函数的分布时,我们从一般的情况中(讨论正态分布的文章中提及),能够得到简化版模型. 回忆利用分布函数和概率密度的关系求解随机变量函数分布的过程,有Y=g(x),如果g(x)是严格单调的,那么在我们就能够利用反函数直接得到X的范围(如果不是单调的,需要考虑的事情就要多一点),由此将Y的分布函数和X的分布函数建立了联系,定理的具体形式如下:…
在关于离散型随机变量函数的期望的讨论中,我们很容易就得到了如下的等式: 那么推广到连续型随机变量,是否也存在类似的规律呢? 即对于连续型随机变量函数的期望,有: 这里给出一个局部的证明过程,完整的证明过程书中留在了理论习题当中.…
古典统计学问题一开始起源于赌博,让我们看这样一道有关赌博的问题. Q:A.B两人进行n局赌博,A胜的概率是p,现在设置随机变量X表示A赢的局数,当X>np,A给赌场X-np元,否则B给赌场np-X元,那么求解赌场挣钱的期望值? 这个问题中明显有二项分布(伯努利分布)的身影,但是我们面临的困境是,这里是基于二项分布的一个求解随机变量X落在某个范围的概率,如果我们利用二项分布逐项乘开,会得到一个异常繁琐的式子,也是极其不利于计算的. 为了解决这个问题,数学家想到了一个方法:众所周知在连续型随机变量中…
注:上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质.对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib等. 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: import numpy as np from scipy import stats import matplotlib.pyplot as plt 0.  Python中调用一个分布函数的步骤 scipy是Pytho…
\documentclass[UTF8,a1paper,landscape]{ctexart} \usepackage{tikz} \usepackage{amsmath} \usepackage{amssymb} \usepackage{geometry} \geometry{top=5cm,bottom=5cm,left=5cm,right=5cm} \usepackage{fancyhdr} \pagestyle{fancy} \begin{document} \title{\Huge 概…
注:这是一个横跨数年的任务,标题也可以叫做“从To Do List上划掉学习统计学”.在几年前为p值而苦恼的时候,还不知道Python是什么:后来接触过Python,就喜欢上了这门语言.统计作为数据科学的基础,想要从事这方面的工作,这始终是一个绕不过去的槛. 其实从中学就开始学习统计学了,最早的写"正"字唱票(相当于寻找众数),就是一种统计分析的过程.还有画直方图,求平均值,找中位数等.自己在学校里并没有完整系统的学习过概率论和数理统计,直到在工作中用到,才从最初的印象中,逐渐把这门学…
--------------------------------- 大数定律:大量样本数据的均值(样本值之和除以样本个数),近似于随机变量的期望(标准概率*样本次数).(样本(部分)趋近于总体)中心极限定理:大量样本数据的均值(或者样本和\众数.极差等等,或者任意的非正态的分布都可以)的频率分布,服从正态分布(样本越大,越吻合正态分布). 大数定律研究的是在什么条件下,这组数据依概率收敛于他们的均值. 中心极限定理研究的是在什么条件下,这些样本依分布收敛于正太分布. 依概率收敛就是强收敛,随机过…