[笔记]Practical Lessons from Predicting Clicks on Ads at Facebook

ABSTRACT

这篇paper中作者结合GBDT和LR，取得了很好的效果，比单个模型的效果高出3%。随后作者研究了对整体预测系统产生影响的几个因素，发现Feature+Model的贡献程度最大，而其他因素的影响则较小。

1. INTRODUCTION

介绍了先前的一些相关paper。包括Google，Yahoo，MS的关于CTR Model方面的paper。

而在Facebook，广告系统是由级联型的分类器（a cascade of classifiers）组成，而本篇paper讨论的CTR Model则是这个cascade classifiers的最后一环节。

2. EXPERIMENTAL SETUP

作者介绍了如何构建training data和testing data，以及Evaluation Metrics。包括Normalized Entropy和Calibration。

Normalized Entropy的定义为每次展现时预测得到的log loss的平均值，除以对整个数据集的平均log loss值。之所以需要除以整个数据集的平均log loss值，是因为backgroud CTR越接近于0或1，则越容易预测取得较好的log loss值，而做了normalization后，NE便会对backgroud CTR不敏感了。这个Normalized Entropy值越低，则说明预测的效果越好。下面列出表达式：

Calibration的定义为预估CTR除以真实CTR，即预测的点击数除以真实观察到的点击数。这个值越接近1，则表明预测效果越好。

3. PREDICTION MODEL STRUCTURE

作者介绍了两种Online Learning的方法。包括Stochastic Gradient Descent（SGD）-based LR：

和Bayesian online learning scheme for probit regression（BOPR）：

BOPR每轮迭代时的更新公式为：

3.1 Decision tree feature transforms

Linear Model的表达能力不够，需要feature transformation。第一种方法是对连续feature进行分段处理；第二种方法是进行特征组合，包括对离散feature做笛卡尔积，或者对连续feature使用联合分段（joint binning），比如使用k-d tree。

而使用GBDT能作为一种很好的feature transformation的工具，我们可以把GBDT中的每棵树作为一种类别的feature，把一个instance经过GBDT的流程（即从根节点一直往下分叉到一个特定的叶子节点）作为一个instance的特征组合的过程。这里GBDT采用的是Gradient Boosting Machine + L2-TreeBoost算法。这里是本篇paper的重点部分，放一张经典的原图：

3.2 Data freshness

探讨了data freshness对预测效果的影响，表明training data的日期越靠近，效果越好。

3.3 Online linear classifier

探讨了对SGD-based LR中learning rate的选择。最好的选择为：

4 ONLINE DATA JOINER

Online Data Joiner主要是用于在线的将label与相应的features进行join。同时作者也介绍了正负样本的选取方式，以及选取负样本时候的waiting time window的选择。

5 CONTAINING MEMORY AND LATENCY

作者探讨了GBDT中tree的个数，各种类型的features（包括contextual features和historical features），对预测效果的影响。

6 COPYING WITH MASSIVE TRANING DATA

作者探讨了如何进行样本采样的过程，包括了均匀采样（Uniform subsampling），和负样本降采样（Negative down sampling），以及对预测效果的影响。

本文由笨兔勿应所有，发布于http://www.cnblogs.com/bentuwuying。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。

[笔记]Practical Lessons from Predicting Clicks on Ads at Facebook的更多相关文章

Practical Lessons from Predicting Clicks on Ads at Facebook (2014)论文阅读
文章链接: https://quinonero.net/Publications/predicting-clicks-facebook.pdf abstract Facebook日活跃度7.5亿,活跃 ...
Practical Lessons from Predicting Clicks on Ads at Facebook
ABSTRACT 这篇paper中作者结合GBDT和LR,取得了很好的效果,比单个模型的效果高出3%.随后作者研究了对整体预测系统产生影响的几个因素,发现Feature(能挖掘出用户和广告的历史信息) ...
广告点击率 CTR预估中GBDT与LR融合方案
http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm 1.背景 CTR预估,广告点击率(Click-Through Rate Pred ...
利用GBDT模型构造新特征具体方法
利用GBDT模型构造新特征具体方法数据挖掘入门与实战公众号: datadw 实际问题中,可直接用于机器学**模型的特征往往并不多.能否从"混乱"的原始log中挖掘到有用的 ...
ML学习分享系列(2)_计算广告小窥[中]
原作:面包包包包包包改动:寒小阳 && 龙心尘时间:2016年2月出处:http://blog.csdn.net/Breada/article/details/50697030 ...
用深度学习（DNN）构建推荐系统 - Deep Neural Networks for YouTube Recommendations论文精读
虽然国内必须FQ才能登录YouTube,但想必大家都知道这个网站.基本上算是世界范围内视频领域的最大的网站了,坐拥10亿量级的用户,网站内的视频推荐自然是一个非常重要的功能.本文就focus在YouT ...
GBDT原理及利用GBDT构造新的特征-Python实现
1. 背景 1.1 Gradient Boosting Gradient Boosting是一种Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向.损失函数是 ...
机器学习算法GBDT
http://www-personal.umich.edu/~jizhu/jizhu/wuke/Friedman-AoS01.pdf https://www.cnblogs.com/bentuwuyi ...
主流CTR预估模型的演化及对比
https://zhuanlan.zhihu.com/p/35465875 学习和预测用户的反馈对于个性化推荐.信息检索和在线广告等领域都有着极其重要的作用.在这些领域,用户的反馈行为包括点击.收藏. ...

随机推荐

在mac安装numpy matplotlib scipy
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #000000; background-color: #fffff ...
Jdk 1.8*安装并配置
转载自:http://www.cnblogs.com/zlslch/p/5658399.html 简单说下,jdk1.8*的下载,见http://www.cnblogs.com/zlslch/p/5 ...
python修炼4
---恢复内容开始--- 集合建立 set() ={},集合没有顺序,由不可改变的数字 ,字符串,元组构成 #交集print(a&b) #a.intersection(b) #并集prin ...
Vue.js + Seajs 实例（包含vue-router使用）
这个Demo 相关JS: Sea.js : Version 2.3.0 seajs-text : Version 2.3.0 vue.js : Version 1.0.24 vue-router: ...
一键批量ping任意ip段的存活主机
=======================by me===================================== @echo offecho.color FC for /f %%i ...
display: inline-block兼容性写法
display:inline-block;*display:inline;*zoom:1;
编写高质量iOS代码的52个有效方法1-1
一.使用向前声明(@class)的好处 1.有效减少编译器编译的时间: 2.有效避免循环引用: 二.字面量语法的好处 1.字面常量精简.可用于所有数据类型,如: NSNumber *intNumbe ...
asp.net javascript客户端调用服务器端方法
如何用js调用服务器端方法.首先服务器端方法的格式如下 [System.Web.Services.WebMethod] public static void serverMethod(s ...
Linux入门（六）ubuntu下vim编辑器安装与使用
原文链接:http://jingyan.baidu.com/article/219f4bf7d03187de452d3862.html 一.安装 vim 控制台版本的vim随ubuntu一起发行,因此 ...
haskell类型
一.源文件介绍这个主要是因为下文很多代码写在源文件中,然后从ghci加载源文件进行测试. 创建一个文本文件,在其中输入,并保存为add.hs文件 -- file: add.hs add x y = ...

[笔记]Practical Lessons from Predicting Clicks on Ads at Facebook

[笔记]Practical Lessons from Predicting Clicks on Ads at Facebook的更多相关文章

随机推荐

热门专题