Ref:

https://onlinecourses.science.psu.edu/stat464/print/book/export/html/5


Two sample test

  • 直接使用R的t-test

t.test(n, t, alternative="two.sided", var.equal=T)

  • permutation test

当我们判断两个样本的均值或者中值是否相等时,如果样本数量足够大,可以使用t-test。

但是,当两个样本的数量都很小时,它们的分布可能是有偏的,所以考虑permutation test。

原理:假设样本X1有m个数据,均值为mean(X1);X2有n个数据,均值为mean(X2)。定义:Dobs=mean(X1)-mean(X2)

那么我们可以把m+n个数据放在一起,从中挑m个放到X1里,剩下的放到X2中。这样挑的方法共有k种:

计算Di=mean(X1)-mean(X2) for i = 1...k

这样再与α比较,就可以判断要不要拒绝原假设。

当然,不止可以比较均值和中值,还可以比较trimmed mean.这三种方法的选择标准是:

数据接近正态分布,使用均值的差;

数据分布对称,但有离群值,使用trimmed mean(去掉极端值)的差;

数据分布不对称,使用中值的差。

那么,当m+n比较大时,遍历所有的Di(i=1...k)就变成一件很耗时的事情。因此,我们希望可以估计这个p值,而不是计数然后计算。

同时,当k很大时,如果我们指定一个遍历次数,如999,那么这样计算出的p值和真实的p值之间的误差是很小的,因此,我们通过

指定k值,来减少耗时。其他步骤与前面一直,只是循环的次数是指定的而已。

  • Wilcoxon Rank Sum Test

两样本非参数检验。我们首先将两个样本的数据合在一起,进行排序。然后计算样本1的rank的和,使用上面的方法,做permutation

当然,也可以使用样本2的rank sum。

另外,如果m和n小的话,可以使用表格。对于相等的数,排序时,我们使用均值。

此处参考University of Auckland的讲义:

  • 相比t-test,Wilcoxon test对离群值更不敏感;
  • Wilcoxon test更适合于检查两个样本分布的位置(图上可以用均值,中值描述),而非形状等其他方面的区别;
  • Mann-Whitney test与Wilcoxon是等价的,虽然test statistic不一样。

不管原理的话,直接用R就好了啊~

wilcox.test(m, w, alternative="greater", exact=T)

Applied Nonparametric Statistics-lec4的更多相关文章

  1. Applied Nonparametric Statistics-lec10

    Ref:https://onlinecourses.science.psu.edu/stat464/print/book/export/html/14 估计CDF The Empirical CDF ...

  2. Applied Nonparametric Statistics-lec9

    Ref:https://onlinecourses.science.psu.edu/stat464/print/book/export/html/12 前面我们考虑的情况是:response是连续的, ...

  3. Applied Nonparametric Statistics-lec8

    Ref:https://onlinecourses.science.psu.edu/stat464/print/book/export/html/11 additive model value = t ...

  4. Applied Nonparametric Statistics-lec7

    Ref: https://onlinecourses.science.psu.edu/stat464/print/book/export/html/9 经过前面的步骤,我们已经可以判断几个样本之间是否 ...

  5. Applied Nonparametric Statistics-lec6

    Ref: https://onlinecourses.science.psu.edu/stat464/print/book/export/html/8 前面都是对一两个样本的检查,现在考虑k个样本的情 ...

  6. Applied Nonparametric Statistics-lec5

    今天继续two-sample test Ref: https://onlinecourses.science.psu.edu/stat464/print/book/export/html/6 Mann ...

  7. Applied Nonparametric Statistics-lec3

    Ref: https://onlinecourses.science.psu.edu/stat464/print/book/export/html/4 使用非参数方法的优势: 1. 对总体分布做的假设 ...

  8. Applied Nonparametric Statistics-lec2

    Ref: https://onlinecourses.science.psu.edu/stat464/print/book/export/html/3 The Binomial Distributio ...

  9. Applied Nonparametric Statistics-lec1

    参考网址: https://onlinecourses.science.psu.edu/stat464/node/2 Binomial Distribution Normal Distribution ...

随机推荐

  1. GUI的最终选择 Tkinter(七):菜单Menu组件、Menubutton组件、OptionMenu组件

    Menu组件 今天说的Menu组件就是一些菜单组件,开始点点点... Tkinter提供了一个Menu组件,可以实现顶级菜单,下拉菜单和弹出菜单.由于底层是代码实现和优化的,所以不太建议通过按钮和其他 ...

  2. Yahoo!团队实践分享:网站性能优化的34条黄金守则

    (一)内容 Yahoo!的Exceptional Performance团队为改善Web性能带来最佳实践.他们为此进行了一系列的实验.开发了各种工具.写了大量的文章和博客并在各种会议上参与探讨.最佳实 ...

  3. PHP函数生成随机数

    通常情况下,当我们要生成一个随机字符串时,总是先创建一个字符池,然后用一个循环和mt_rand()或rand()生成php随机数,从字符池中随机选取字符,最后拼凑出需要的长度,代码如下: <?p ...

  4. C# 加密、解密函数

    #region ========加密======== /// <summary> /// 加密 /// </summary> /// <param name=" ...

  5. jvm 内存dump、gc查看、线程死锁,jmap、jstack、jstat

    1. jstat     这个命令对于查看Jvm的堆栈信息很有用.能够查看eden,survivor,old,perm等heap的capacity,utility信息 对于查看系统是不是有能存泄漏以及 ...

  6. java编程基础二进制

    0.java编程基础 01.二进制(原码,反码,补码) 02.位运算 03.移位运算符 二进制 原码,反码,补码 1.基本概念 二进制是逢2进位的进位制,0,1是基本算符. 现在的电子计算机技术全部使 ...

  7. Intellij idea 创建JAVA项目

    1. 打开软件,new一个project的java项目 2. 点击下一步,此界面可通过模板生成项目,如下图 3. 填写项目名称和项目源码的保存路径,如下图 4. 点击 Finish 完成按钮即可,项目 ...

  8. Servlet之sendRedirect和getRequestDispatch

    Servlet的请求重定向和请求转发方法的比较分析: 1.getRequestDispatch是属于httpServletRequest对象的方法,请求转发是在同一个请求中完成的,因此整个过程只包含一 ...

  9. The first step in solving any problem is recognizing there is one.

    The first step in solving any problem is recognizing there is one.解决问题的第一步是要承认确实存在问题.

  10. JavaScript笔记6-数组新方法

    七.ECMAScript5关于数组的新方法 1.forEach():遍历数组,并为每个元素调用传入的函数;     举例:    var a = [1,2,3]; var sum = 0; //传一个 ...