spark MLlib 概念 2：Stratified sampling 层次抽样

过雁 2024-10-07 02:57:33 原文

定义：

In statistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independently.Stratification is the process of dividing members of the population into homogeneous subgroups before sampling. The strata should be mutually exclusive: every element in the population must be assigned to only one stratum.

简言之，将数据集划分为相同标签的子集，然后再在每个子集进行独立的抽样

Advantages[edit]

优点是：即使在样本空间的概率密度急剧变化的情况，层次抽样也能保证不同（概率密度）层次的样本的抽取概率的精确性。

If population density varies greatly within a region, stratified sampling will ensure that estimates can be made with equal accuracy in different parts of the region, and that comparisons of sub-regions can be made with equal statistical power.

Randomized stratification can also be used to improve population representativeness in a study.

Disadvantages[edit]

Stratified sampling is not useful when the population cannot be exhaustively partitioned into disjoint subgroups. It would be a misapplication of the technique to make subgroups' sample sizes proportional to the amount of data available from the subgroups, rather than scaling sample sizes to subgroup sizes (or to their variances, if known to vary significantly

来源： <http://en.wikipedia.org/wiki/Stratified_sampling>

来自为知笔记(Wiz)

spark MLlib 概念 2：Stratified sampling 层次抽样的更多相关文章

spark MLlib 概念 6：ALS（Alternating Least Squares） or (ALS-WR)
Large-scale Parallel Collaborative Filtering for the Netflix Prize http://www.hpl.hp.com/personal/Ro ...
spark MLlib 概念 5：余弦相似度（Cosine similarity）
概述: 余弦相似度是对两个向量相似度的描述,表现为两个向量的夹角的余弦值.当方向相同时(调度为0),余弦值为1,标识强相关:当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0, ...
spark MLlib 概念 4：协同过滤（CF）
1. 定义协同过滤(Collaborative Filtering)有狭义和广义两种意义: 广义协同过滤:对来源不同的数据,根据他们的共同点做过滤处理. Collaborative filterin ...
spark MLlib 概念 3：卡方分布（chi-squared distribution）
数学定义[编辑] 若k个随机变量.--.是相互独立,符合标准正态分布的随机变量(数学期望为0.方差为1),则随机变量Z的平方和被称为服从自由度为 k 的卡方分布,记作 Definition[edit ...
spark MLlib 概念 1：相关系数（ PPMCC or PCC or Pearson's r皮尔森相关系数） and Spearman's correlation（史匹曼等级相关系数）
皮尔森相关系数定义: 协方差与标准差乘积的商. Pearson's correlation coefficient when applied to a population is commonly r ...
Spark Mllib里的分布式矩阵（行矩阵、带有行索引的行矩阵、坐标矩阵和块矩阵概念、构成）（图文详解）
不多说,直接上干货! Distributed matrix : 分布式矩阵一般能采用分布式矩阵,说明这数据存储下来,量还是有一定的.在Spark Mllib里,提供了四种分布式矩阵存储形式,均由支 ...
Spark Mllib里的本地矩阵概念、构成（图文详解）
不多说,直接上干货! Local matrix:本地矩阵数组Array(1,2,3,4,5,6)被重组成一个新的2行3列的矩阵. testMatrix.scala package zhouls.bi ...
Spark Mllib里的向量标签概念、构成（图文详解）
不多说,直接上干货! Labeled point: 向量标签向量标签用于对Spark Mllib中机器学习算法的不同值做标记. 例如分类问题中,可以将不同的数据集分成若干份,以整数0.1.2,... ...
Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）
不多说,直接上干货! Local vector : 本地向量集由两类构成:稀疏型数据集(spares)和密集型数据集(dense) (1).密集型数据集例如一个向量数据(9,5,2,7),可以设 ...

随机推荐

python之time
1. 获取当前时间戳 # -*- coding: UTF- -*- import time print(time.time()) # 输出:1540693297.94459 2. 将时间戳格式化为本地 ...
react 兼容 ie11
npm install core-js -D 在入口文件第一行引入import ‘core-js’ 在package.json做如下修改加上ie 11
todo 看看堆栈里的东西
类变量,成员变量,静态方法里的变量.参数,成员方法里的变量,参数
写两个线程，一个线程打印1-52，另一个线程打印A-Z，打印顺序为12A34B56C......5152Z
题目: 写两个线程,一个线程打印1-52,另一个线程打印A-Z,打印顺序为12A34B56C......5152Z.要求用线程间的通信. /** * 写两个线程,第一个线程打印1-52,第二个线程打印 ...
traceback：让你更加灵活地处理python的异常
异常异常在python中是屡见不鲜了,程序在执行到某一行代码时,发现有问题,比如数组索引越界,变量没有定义啊等等,此时就会抛出异常捕获异常在python,一般都是使用try···except来对 ...
2019.9.25使用BP和Hydra爆破相关的服务
使用BP和Hydra爆破相关的服务. Hydra:九头蛇,开源的功能强大的爆破工具,支持的服务有很多,使用hydra爆破c/s架构的服务.使用bp爆破web登录端口. dvwa:web应用程序漏洞演练 ...
MMU功能解析、深入剖析、配置与使用
MMU = memory management unit 1.把虚拟地址转化成物理地址,防止地址冲突 2.访问权限管理 MMU把一个虚拟地址的20位到31位作为取出来,建立一张表,叫做transla ...
Arch Linux 安装rust
Arch Linux 安装rust 0. 参考 Rust Toolchain 反向代理使用帮助 1. 安装安装rustup和toolchain yaourt -S rustup rustup ins ...
DP问题练习2：网格路径数量计算问题
DP问题练习2:网格路径数量计算问题问题描述有一个机器人的位于一个 m × n 个网格左上角. 机器人每一时刻只能向下或者向右移动一步.机器人试图达到网格的右下角. 问有多少条不同的路径? 样例: ...
noi.ac NA529 【神树的矩阵】
表示今天一发A了这题拿了rk3...是个sb构造... 考虑除了\(n=1/m=1\)的情况,最小次数\(ans\)不会\(>3\). 对于\(n=1/m=1\),暴力即可. 然后考虑\(ans ...