Z就是正态分布,X^2分布是一个正态分布的平方,t分布是一个正态分布除以(一个X^2分布除以它的自由度然后开根号),F分布是两个卡方分布分布除以他们各自的自由度再相除 比如X是一个Z分布,Y(n)=X1^2+X2^2+……+Xn^2,这里每个Xn都是一个Z分布,t(n)=X/根号(Y/n),F(m,n)=(Y1/m)/(Y2/N) 各个分布的应用如下:方差已知情况下求均值是Z检验.方差未知求均值是t检验(样本标准差s代替总体标准差R,由样本平均数推断总体平均数)均值方差都未知求方差是X^2检验两…
比较重要的四种分布:正态分布.卡方分布.F分布.t分布 卡方分布概率密度曲线 t分布概率密度曲线 F分布概率密度曲线 参考资料: 统计学中四个概率分布 重要抽样分布…
这涉及到数学的概率问题. 二元变量分布:          伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我们要求u: 求值推导过程如下: 所以可以求出: 以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率除以总共抛硬币的实验次数.但是极大似然估计有它的局限性,当训练样本比较小的时候会导致Overfitting问题,比如说抛了10次硬币,有8次朝上,那么根据极大似然估计,u的 取值就应…
这涉及到数学的概率问题. 二元变量分布:       伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我们要求u: 求值推导过程如下: 所以可以求出: 以上的推导过程就是极大似然估计,我们可以看出u就是样本出现的频率除以总共抛硬币的实验次数.但是极大似然估计有它的局限性,当训练样本比较小的时候会导致Overfitting问题,比如说抛了10次硬币,有8次朝上,那么根据极大似然估计,u的取值就应该是8/…
类似题目如下(数值是可变化的) 你的面前有30个硬币,其中有10个正面朝上,20个反面朝上,混乱在一团. 要求:现在用厚布遮住你的眼睛.要你把30个硬币分成2团,每团正面朝上的硬币个数相等.问:你要怎么分?不能用手去触摸感觉,也没有其他人帮忙. 答案如下 分为两堆,一堆10个,一堆20个,然后将10个那堆翻转,即可. 原理 假设分为两堆,A堆,有10个,B堆,20个. A(正)=X A(反)=10-X B(正)=10-X 发现没有,只需要把A堆翻转,A(正)=10-X 就能完成了. 数字变化 如…
几何学中的欧拉公式:V-E+F = 2,V.E.F表示简单几何体的顶点数.边数.面数. 证明: 它的证明有多种,这里呈现一种递归证法. 对于任意简单几何体(几何体的边界不是曲线),我们考察这个几何体的每个面,设这个边成一个n边形,我们从某个固定顶点开始连接其其他各个顶点,即将这个n边形从某个顶点进行了三角剖分,我们假想每个三角形是一个面(因为实际上多个三角形共面),那么能够看到,这个过程中E和F的增量是相同的,因此如果原来的几何体满足V-E+F = 2,则现在这个几何体(视每个三角形为一个面)仍…
统计学意义(p值) 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法.专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标.p值是将观察结果认为有效即具有总体代表性的犯错概率.如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的.即假设总体中任意变量间均无关联(变量之间的独立性成立),我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果.(这并不是说如果变量间存在关联,我们…
[ -a FILE ] 如果 FILE 存在则为真. [ -b FILE ] 如果 FILE 存在且是一个块特殊文件则为真. [ -c FILE ] 如果 FILE 存在且是一个字特殊文件则为真. [ -d FILE ] 如果 FILE 存在且是一个目录则为真. [ -e FILE ] 如果 FILE 存在则为真. [ -f FILE ] 如果 FILE 存在且是一个普通文件则为真. [ -g FILE ] 如果 FILE 存在且已经设置了SGID则为真. [ -h FILE ] 如果 FILE…
一.相对危险度(RR)——队列研究中分析暴露因素与发病的关联程度 队列研究是选择暴露及未暴露于某一因素的两组人群,追踪其各自的发病结局,比较两组发病结局的差异,从而判定暴露因素与疾病有无关联及关联大小的一种观察性研究.通常,暴露可以指危险因素,比如吸烟.高血压,也可指服用某种药物.而事件可以是疾病发生,比如肺癌.心血管病,也可指服药后的治疗效果. RR也叫危险比(risk ratio)或率比(rate ratio),是反映暴露与发病(死亡)关联强度的最有用的指标.RR适用于队列研究或随机对照试验…
1 聚合和分组 聚合:对一些数据进行整理分析 进而得到结果(mysql中的聚合函数) 1aggregate(*args,**kwargs) : 通过对QuerySet进行计算 ,返回一个聚合值的字典.其中每一个参数都指定一个包含在字典中的返回值.即在查询集上生成聚合 from django.db.models import Avg,Min,Sum,Max # 从整个查询集生成统计值.比如,你想要计算所有在售书籍的平均价钱.django的查询语法提供了一种方式描述所有图书的集合 Book.obje…