显著性水平α与P值: 1.显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示. 显著性是对差异的程度而言的,是在进行假设检验前确定的一个可允许作为判断界限的小概率标准. 2.P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较. P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率.如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理就有理由拒绝原假设,P值越小,拒绝原假设的理由越充分. 总结,P值…
Chi-square distribution introduction 这个视频真的好,完美地解释了卡方统计量是怎么来的! 我们有一个标准正态分布的总体,我们从其中抽一次,取该值的平方就是Q1统计量:抽两次,取两次值得平方和,就是Q2统计量:以此类推... 这就是自由度逐渐增加的卡方分布. 卡方分布 可以用于比较两组数(A和B)是否来源于一个分布,假设B和A同分布(通常假设为正态分布),那么就可以推出B的期望值. 然后就可以计算这两组数的卡方统计量,查表. 常见的一个例子就是检验赌博机/硬币是…
--------------------------------- 大数定律:大量样本数据的均值(样本值之和除以样本个数),近似于随机变量的期望(标准概率*样本次数).(样本(部分)趋近于总体)中心极限定理:大量样本数据的均值(或者样本和\众数.极差等等,或者任意的非正态的分布都可以)的频率分布,服从正态分布(样本越大,越吻合正态分布). 大数定律研究的是在什么条件下,这组数据依概率收敛于他们的均值. 中心极限定理研究的是在什么条件下,这些样本依分布收敛于正太分布. 依概率收敛就是强收敛,随机过…
注:上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质.对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib等. 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: import numpy as np from scipy import stats import matplotlib.pyplot as plt 0.  Python中调用一个分布函数的步骤 scipy是Pytho…
注:这是一个横跨数年的任务,标题也可以叫做“从To Do List上划掉学习统计学”.在几年前为p值而苦恼的时候,还不知道Python是什么:后来接触过Python,就喜欢上了这门语言.统计作为数据科学的基础,想要从事这方面的工作,这始终是一个绕不过去的槛. 其实从中学就开始学习统计学了,最早的写"正"字唱票(相当于寻找众数),就是一种统计分析的过程.还有画直方图,求平均值,找中位数等.自己在学校里并没有完整系统的学习过概率论和数理统计,直到在工作中用到,才从最初的印象中,逐渐把这门学…
概率论与数理统计 产生随机数 binornd poissrnd exprnd unidrnd normrnd 概率密度函数(pdf) binopdf poisspdf geopdf unidpdf normpdf exppdf chi2pdf: 卡方分布 tpdf fpdf 数学期望与方差 mean nanmean geomean: 几何平均数 harmmean: 调和平均数 median: 中位数 nammedian sort(x, 1, 'ascend') range: 求最大值与最小值的差…
\documentclass[UTF8,a1paper,landscape]{ctexart} \usepackage{tikz} \usepackage{amsmath} \usepackage{amssymb} \usepackage{geometry} \geometry{top=5cm,bottom=5cm,left=5cm,right=5cm} \usepackage{fancyhdr} \pagestyle{fancy} \begin{document} \title{\Huge 概…
注:上一小节总结了离散型随机变量,这个小节总结连续型随机变量.离散型随机变量的可能取值只有有限多个或是无限可数的(可以与自然数一一对应),连续型随机变量的可能取值则是一段连续的区域或是整个实数轴,是不可数的.最常见的一维连续型随机变量有三种:均匀分布,指数分布和正态分布.下面还是主要从概述.定义.主要用途和Python的实现几个方面逐一描述. 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: import numpy as np from scipy import st…
AdaBoost算法内容来自<统计学习与方法>李航,<机器学习>周志华,以及<机器学习实战>Peter HarringTon,相互学习,不足之处请大家多多指教! 提升算法是将弱学习算法提升为强学习算法的统计学习方法,在分类学习中,提升方法通过反复修改训练数据的权值分布,构建一系列基本的基本分类器,并将这些基本的分类器线性组合,构成一个强分类器.代表的方法是AdaBoost算法. 本卷大纲为: 1 提升方法AdaBoost算法2 AdaBoost算法解释3 提升树4 总结…
1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定. 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果.倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很 少.很罕有的情况下才出现:那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够…