背景

都说随机是AB实验的核心,为什么随机这么重要呢?有人说因为随机所以AB组整体不存在差异,这样才能准确估计实验效果(ATE)

\[
ATE = E(Y_t(1) - Y_c(0))
\]

那究竟随机是如何定义的呢? 根据Rubin Causal Model, 想要让上述估计无偏,随机实验需要满足以下两个条件:

  1. SUTVA

    • 实验个体间不相互影响
    • 实验个体间的treatment可比
  2. Ignorability(Unconfoundness是更强的假设)
    是否受到实验干预和实验结果无关,从因果图的角度就是不存在同时影响treatment和outcome的其他变量
    \[Y(1),Y(0) \perp Z \]

SUTVA在一般实验中是假定成立的,线上实验还好,很多线下实验很难保证这一点,像滴滴在部分地区投放更多车辆就会导致其他地区出现运力不足,所以个体间是隐含存在相互影响的。但这个不在本节讨论范围以内。

Ignorability在随机实验中,通过对样本随机采样得以保证。但是在观测性实验或者并未进行完全随机的实验中Ignorability是不成立的。解决办法就是把同时影响是否实验和实验结果的那些变量(Confounding Covariate)考虑进来得到conditional Ignorability。既

\[Y(1),Y(0) \perp Z | X\]

理论是如此,但X往往是未知且高维的。寻找X完全一样的样本来估计ATE并不现实,其中一个解决办法就是下面的Propensity Score Matching。名字很高端~计算较简单~使用需谨慎~

下面我介绍一下核心方法,并用kaggle一个医学相关数据集简单比较一下各个方法。

核心方法

原理

Propensity Score的核心方法分成两步,score的计算和score的使用。score计算如下:
\[
\text{Propensity Score} = P(Z=\text{treatment assignment}| X \in R^n)
\]
一种理解是它通过对影响Z的\(X \in R^N\)进行建模, 提炼所有Confounding Covariate的信息。另一种理解是把\(P(z|x)\)作为一种相似度(样本距离)的度量。我个人倾向于把它当作一种有目标的降维($N \to 1 $),或是聚类(相似样本)来理解。

然后基于score我们对样本进行聚合或匹配或加权,使样本满足上述的conditional Ignorability

Propensity Score 估计

估计本身就是一个经典的二分类问题,基于特征我们预测每个样本进入实验组的概率。几篇经典的paper(2011年之前)都是用LogisticRegression来解决问题,但放在今天xgBoost和LGB等等集合树算法在特征兼容和准确率上应该会表现更好。而且树对于样本划分的方式天然保证了叶节点的样本有相同的打分和相似的特征。[当然要是你的数据太小LR还是首选]

这里说两个建模时需要注意的点:

1. 特征选择

这里的特征可以大体被分为三类

  • 影响treatment
  • 影响outcome
  • 同时影响treatment和outcome的confounder

毫无疑问confounder是必须要有的,移除confounding Bias是AB实验的核心。但是是否加入只影响treatment和outcome的特征不同论文给出了不同的观点。

结合各方结论,加入对outcome有影响的特征是okay的,其实结合上一篇AB实验的高端玩法系列2 - 更敏感的AB实验, CUPED!,可以发现加入对outcome有影响的特征近似于变相使用了CUPED,可能降低实验核心指标估计的方差。

加入只对treatment有影响的特征,可能会导致实验组和对照组样本的Propensity score最终分布重合度变低,导致部分实验样本找不到匹配的对照样本,需要谨慎考虑。

2. 模型检验

只用AUC,cross-entropy来评价模型的拟合在这里是不够的。这涉及到Propensity Score的Balancing性质:
\[
Z \perp X | PropensityScore
\]
简单说就是Score相近的样本,X也要相似。这里你可以直接用可视化boxplot/violinplot来检验,也可以更精确的用T-test等统计手段来检验X是否存在差异。

Score使用

Propensity Score通常有4种用法,我们逐一简单介绍一下

matching

一句话说按Propensity给实验组对照组进行配对。

按score对每一个实验组样本进行[1/N个][有/无放回]的样本匹配。这里的参数选择除了现实数据量的限制,一样是Bias-Variance的权衡。因此可以考虑根据样本量,在score相差小于阈值的前提下,分别计算1~N个匹配样本下的ATE,如果结果差异过大(sensitivity),则方法本身需要调整。

也有相应的trim方法旨在剔除score取值极端无法找到匹配的样本(eg. \(score \to 0\))。但在一些场景下trim方法会被质疑。( 小明:你扔掉了一些高收入的样本ROI肯定打不平啊怎么能这么算呢>_<)

在数据量允许情况下,我更倾向于Nto1有放回的匹配,因为大多数场景下都是无法完全考虑所有Covariate的,意味着Propensity score的估计一定在一些特征上是有偏差的,这种时候取多个样本匹配是可能降低偏差的

stratification

一句话说按相似Propensity对实验组对照组进行分组在组内计算ATE再求和。

具体怎么分组没有确定规则,只要保证每组内有足够的实验组对照组样本来计算ATE即可。这里一样是Bias-Variace的权衡,分组越多Bias越少方差越大。通常有两种分位数分桶方法

  • 对全样本propensity score按人数等比例分组
  • 对人数较少(通常是实验组)按人数确定分组边界

这里一样可以使用trim,但是请结合具体业务场景仔细考虑。

Inverse probability of treatment weighting(IPTW)

一句话说按Propensity score的倒数对样本进行加权。

一个完全随机的AB实验,Propensity Score应该都在0.5附近,而不完全随机的实验在用Propensity score调整后在计算ATE时Z也会被调整为等权,如下:

\[
\begin{align}
e &= P(Z=1|x) \\
w &= \frac{z}{e} + \frac{1-z}{1-e} \\
ATE & = \frac{1}{n}\sum_{i=1}^n\frac{z_iY_i}{e_i} - \sum_{i=1}^n\frac{(1-z_i)Y_i}{1-e_i}
\end{align}
\]

个人对这种方法持保留意见,原因有2: 其一上述matching和stratification虽然使用了score,但本质是使用了score给出的样本相似度的排序,而并没有使用score本身,所以对score估计的准确有一定容忍度。其二拿score做分母很容易碰到\(score \to 0/1\)从而导致的的极端值问题,这就需要人工调整,而调整本身是否合理也会被质疑。

Covariate adjusted

一句话说我没怎么接触过这种方法,也把model-dependency应用在这里不太感冒 >.<,有兴趣的朋友自己探索吧。要是以后发现它好用再加回来

应用示例

数据来源是Kaggle的开源数据集 Heart Disease UCI[数据链接]
数据本身是根据人们的性别,年龄,是否有过心口痛等医学指标预测人们患心脏病的概率。

数据量和特征都很少,以下仅用作方法探索,不对结果置信度做讨论

这里我们把数据当作一个观测性实验的样本,实验目的变成女性(sex=0)是否男性(sex=1)更易患上心脏病。数据如下:

直接从数据计算男性比女性患心脏病的概率低30%!WHAT?!
考虑到数据非常小,我们用LR估计Propensity Score,男女的score分布如下

下面我分别使用了stratification,matching和IPTW来估计ATE

stratification

我分别尝试用实验组和用全样本找分位点的方式来计算ATE, 用实验组估计分位点时分3组会有一组对照组样本太少,于是改成2组。结果比较相似ATE在-0.15 ~ 0.16。比直接用全样本估计降低了一半!

这里stratification分组数的确定,需要在保证每组有足够的treatment和control样本的基础上,保证每组的Covariate分布相似

matching

以下结果分别是:有trim & match 1~4 + 无trim & match1~4。最终估计的ATE和上述stratification的结果相似ATE在-0.15~-0.16直接。而且相对稳健匹配数量并没有对ATE计算产生过大影响。

我们发现随着匹配的样本上升ATE会越来越显著,所以match的N越大越好?其实并不是,因为P值是样本量的函数,随着样本量上升'微小'的变动也会变显著。所以个人觉得选择最佳的N这里并不十分重要,比较ATE对不同的N是否稳定可能更有意义。


IPTW

。。。预料之中,这个结果是比较奇怪的。一方面数据少(100多),另一方面confonder特征也少,Score的拟合肯定不好。所以得到的竟然是正向的结果。。。

PSM差不多就说这么多,欢迎各种反馈各种评论~下一节我们讨论实验渗透低/效果稀释该怎么办? 对这个系列感兴趣的的盆友,

AB实验的高端玩法系列3 - AB组不随机?观测试验?Propensity Score的更多相关文章

  1. AB实验的高端玩法系列4- 实验渗透低?用户未被触达?CACE/LATE

    CACE全称Compiler Average Casual Effect或者Local Average Treatment Effect.在观测数据中的应用需要和Instrument Variable ...

  2. AB实验的高端玩法系列2 - 更敏感的AB实验, CUPED!

    背景 AB实验可谓是互联网公司进行产品迭代增加用户粘性的大杀器.但人们对AB实验的应用往往只停留在开实验算P值,然后let it go...let it go ... 让我们把AB实验的结果简单的拆解 ...

  3. 第四模块MySQL50题作业,以及由作业引申出来的一些高端玩法

    一.表关系 先参照如下表结构创建7张表格,并创建相关约束                 班级表:class       学生表:student       cid caption grade_id ...

  4. Word 查找替换高级玩法系列之 -- 把论文中的缩写词快速变成目录下边的注释表

    1. 前言 问题:Word写论文如何把文中的缩写快速转换成注释表? 原来样子: 想要的样子: 2. 步骤 使用查找替换高级用法,替换缩写顺序 选中所有文字 打开查找替换对话框,输入以下表达式: 替换后 ...

  5. windows下mongodb基础玩法系列二CURD附加一

    windows下mongodb基础玩法系列 windows下mongodb基础玩法系列一介绍与安装 windows下mongodb基础玩法系列二CURD操作(创建.更新.读取和删除) windows下 ...

  6. windows下mongodb基础玩法系列二CURD操作(创建、更新、读取和删除)

    windows下mongodb基础玩法系列 windows下mongodb基础玩法系列一介绍与安装 windows下mongodb基础玩法系列二CURD操作(创建.更新.读取和删除) windows下 ...

  7. windows下mongodb基础玩法系列一介绍与安装

    windows下mongodb基础玩法系列 windows下mongodb基础玩法系列一介绍与安装 windows下mongodb基础玩法系列二CURD操作(创建.更新.读取和删除) windows下 ...

  8. Word 查找替换高级玩法系列之 -- 段首批量添加字符

    打开「查找和替换」输入框,按照下图操作: 更多查找替换高级玩法,参看:Word查找替换高级玩法系列 -- 目录篇 未完 ...... 点击访问原文(进入后根据右侧标签,快速定位到本文)

  9. Hadoop大数据零基础高端实战培训系列配文本挖掘项目

随机推荐

  1. 根据vue-cli手摸手实现一个自己的脚手架

    故事背景 身为一个入门前端七个月的小菜鸡,在我入门前端的第一天就接触到了vue,并且死皮赖脸的跟他打了这么久的交到,还记得第一次用vue init webpack 这句命令一下生成一个模板的时候那种心 ...

  2. Python3行代码之——截图工具

    最近工作需要个定时截图的小工具,用Python实现比较急直接上代码 from PIL import ImageGrab im = ImageGrab.grab() im.save(addr,'jpeg ...

  3. Spring Boot (十一): Spring Boot 定时任务

    在实际的项目开发工作中,我们经常会遇到需要做一些定时任务的工作,那么,在 Spring Boot 中是如何实现的呢? 1. 添加依赖 在 pom.xml 文件中只需引入 spring-boot-sta ...

  4. C++set 和 multiset的使用

    最后一个自由支配的暑假,学一些自己感兴趣的部分,也算为大三作准备. C++中set集合的使用 定义一个int类型的集合 set<int> s: set<int>::iterat ...

  5. [Swoole] 在Ubuntu下安装、快速开始

    本文主要讲述在 Ubuntu 下编译安装 Swoole,并根据官方文档给出的demo进行了测试和搬运,包括:TCP服务器.UDP服务器.HTTP服务器.WebSocket服务器.异步客户端.定时器和协 ...

  6. Bitmap简介

    1.  BitMap Bit-map的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素.由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省.(PS:划重点 ...

  7. 记录一次jvm内存泄露的问题

    前些天,运维告诉我刚上线的java服务占用CPU过高. 以下是发现解决问题的具体流程. 1:通过#top命令查看,我的java服务确实把CPU几乎占满了,如图 可看到18400这个进程CPU占用达到了 ...

  8. DataStructure之线性表以及其实现

    线性表 应用:多项式的表示 什么是线性表 多项式表示问题给出的启示: 同一个问题可以有不同的表示(存储)方法 有一类共性问题 : 有序线性序列的租住和管理 “线性表(Linear List)” : 由 ...

  9. django中CBV

    08.13自我总结 django中CBV 一.django处理业务逻辑的两种方式 FBV (function based views):使用函数来处理业务逻辑 CBV (class based vie ...

  10. KMP算法复习笔记

    KMP 算法 KMP 算法是一种改进的字符串匹配算法,KMP 算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的.具体实现就是实现一个next()函数,函数本身包含了 ...