概率抽样方法:

1. 随机抽样(random sampling):从有限总体中简单随机抽样或从无限总体中随机抽样。

具体实现方式:a. 抽签法;b. 随机数字法

2. 分层抽样(stratified sampling):将总体单位按某种特征或某种规则划分为不同的层(Strata), 然后从每一层中随机抽取一定量的抽样单位,组成样本。如果层内的个体是同质的,那么在相对小的样本容量下可以获得层特征的一个好的估计。

3. 整群抽样(cluster sampling):将总体划分成若干个群组, 抽样时直接随机抽取群组, 这些群组中的所有抽样单位即为样本。在理想状态下,每一个群是整个总体小范围内的代表。

4. 系统抽样(systematic sampling):将总体中的所有抽样单位按一定的顺序排列,等分成n个部分,先在第一个部分内随机抽取1个抽样单位, 然后等距离在其他部分分别抽取1个抽样单位,组成样本。

注:随机抽样又可以有两种方式:无放回抽样(sampling without replacement)有放回抽样(sampling with replacement)

注:概率抽样方法即从总体中选出的个体以已知的概率入选样本。

非概率抽样方法:

方便抽样(convenience sampling):-用总体中便于取得的一些抽样单位作为样本。

判断抽样(judgement sampling):由对研究总体非常了解的人主观确定总体中他认为最具代表性的个体组成样本。

抽样的步骤:

1. 确定你的目标总体(target population)

2. 确定抽样的单位(sampling units)

3. 确定抽样的框架(sampling frame):如何对每个抽样单位做标记

抽样偏差(Sampling Bias):每个个体被抽到的概率不一样,有偏向性。

例:

1948年美国总统大选,民主党的候选人是杜鲁门,共和党则是杜威。一家报纸进行了一次电话民调,抽样估计谁会赢。经过大量的电话统计显示,投给杜威的票数要比投给杜鲁门的票数多,所以这家报纸就在选举结果还没公布之前,信心满满地发表了“Dewey Defeats Truman”的报纸头版,认为杜威肯定赢了。

然而,实际上获胜的是杜鲁门!造成这个反转的原因,不是因为编辑弄错,也不是运气不好,而是因为电话很贵,所以抽样到的都是有钱人,而当年正好有钱人是杜威的票仓。也就是说样本选择偏向于有钱人那边,不具有广泛的代表性,才造成杜威支持率更多的假象。

对于机器学习来说,如果数据抽样是有偏的,学习得到的结果也是有偏的。因此,要了解测试环境,进而让训练环境与测试环境尽量接近。

抽样方法(Sampling Method)的更多相关文章

  1. [大牛翻译系列]Hadoop(7)MapReduce:抽样(Sampling)

    4.3 抽样(Sampling) 用基于MapReduce的程序来处理TB级的数据集,要花费的时间可能是数以小时计.仅仅是优化代码是很难达到良好的效果. 在开发和调试代码的时候,没有必要处理整个数据集 ...

  2. 【机器学习实战】第7章 集成方法 ensemble method

    第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重 ...

  3. sampling method

    sampling method 背景 在贝叶斯框架下,利用后验分布对参数进行估计,也即 其中 (1)是参数的先验分布. (2)是似然分布,数据集的生成联合概率 (3)是参数的后验分布. 通常分布很复杂 ...

  4. ASP.NET MVC 5 - 验证编辑方法(Edit method)和编辑视图(Edit view)

    在本节中,您将验证电影控制器生成的编辑方法(Edit action methods)和视图.但是首先将修改点代码,使得发布日期属性(ReleaseDate)看上去更好.打开Models \ Movie ...

  5. Python魔术方法-Magic Method

    介绍 在Python中,所有以"__"双下划线包起来的方法,都统称为"Magic Method",例如类的初始化方法 __init__ ,Python中所有的魔 ...

  6. .NET 扩展方法(Extention Method)的要点

    扩展方法Extention Method的主要介绍在:http://msdn.microsoft.com/zh-cn/library/bb383977(v=vs.100).aspx. 扩展方法的意义在 ...

  7. Atitit java方法引用(Method References) 与c#委托与脚本语言js的函数指针

    Atitit java方法引用(Method References) 与c#委托与脚本语言js的函数指针   1.1. java方法引用(Method References) 与c#委托与脚本语言js ...

  8. 35.按要求编写Java程序: (1)编写一个接口:InterfaceA,只含有一个方法int method(int n); (2)编写一个类:ClassA来实现接口InterfaceA,实现int method(int n)接口方 法时,要求计算1到n的和; (3)编写另一个类:ClassB来实现接口InterfaceA,实现int method(int n)接口 方法时,要求计算n的阶乘(n

      35.按要求编写Java程序: (1)编写一个接口:InterfaceA,只含有一个方法int method(int n): (2)编写一个类:ClassA来实现接口InterfaceA,实现in ...

  9. JVM的堆(heap)、栈(stack)和方法区(method)

    JVM主要由类加载器子系统.运行时数据区(内存空间).执行引擎以及与本地方法接口等组成.其中运行时数据区又由方法区Method Area.堆Heap.Java stack.PC寄存器.本地方法栈组成. ...

  10. 牛顿方法(Newton-Raphson Method)

    本博客已经迁往http://www.kemaswill.com/, 博客园这边也会继续更新, 欢迎关注~ 牛顿方法是一种求解等式的非常有效的数值分析方法. 1.  牛顿方法 假设\(x_0\)是等式的 ...

随机推荐

  1. SQL Server的唯一键和唯一索引会将空值(NULL)也算作重复值

    我们先在SQL Server数据库中,建立一张Students表: CREATE TABLE [dbo].[Students]( ,) NOT NULL, ) NULL, ) NULL, [Age] ...

  2. html 显示 pdf

    html 显示 pdf文件四种方式: 1. <embed src="pdf/wobu.pdf" type="application/pdf" width= ...

  3. Git 分支的一些特殊的使用方式:Bug分支/feature分支/储存现场/

    参考链接:https://www.liaoxuefeng.com/wiki/896043488029600/900388704535136 一般都与dev分支进行合并 Bug分支 Bug分支也是一个分 ...

  4. xmlhttp.status的值及解释

      100——客户必须继续发出请求 101——客户要求服务器根据请求转换HTTP协议版本 200——交易成功 201——提示知道新文件的URL 202——接受和处理.但处理未完成 203——返回信息不 ...

  5. vue项目的构建过程

    确保已经安装了node和npm 1.安装vue-cli npm i vue-cli -g 2.安装vue-router npm i vue-router --save 3.安装vue-router n ...

  6. 汽车制造商表态:必须依靠MES系统来管控流程

    汽车行业特点 汽车工业是一个高投入,高产出,集群式发展的产业部门. 汽车自身的投资,生产,研发,供应,销售,维修:前序的原材料,零部件,技术装备,物流:后序的油料,服务,信贷,咨询,保险,直至基础设施 ...

  7. tensorflow批量读取数据

    Tensorflow 数据读取有三种方式: Preloaded data: 预加载数据,在TensorFlow图中定义常量或变量来保存所有数据(仅适用于数据量比较小的情况). Feeding: Pyt ...

  8. Httpd服务进阶知识-基于Apache Modele的LAMP架构之PhpMyAdmin案例

    Httpd服务进阶知识-基于Apache Modele的LAMP架构之PhpMyAdmin案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.常见LAMP应用 PhpMyAdm ...

  9. Httpd服务入门知识-Httpd服务常见配置案例之定义'Main' server的文档页面路径(文档根路径)

    Httpd服务入门知识-Httpd服务常见配置案例之定义'Main' server的文档页面路径(文档根路径)  作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.创建测试文件 [ ...

  10. Codeforces B. Bad Luck Island(概率dp)

    题目描述: Bad Luck Island time limit per test 2 seconds memory limit per test 256 megabytes input standa ...