最近在做CTR,刚好Google在KDD发了一篇文章,讲了他们的一些尝试,总结一下:

先是一些公式的符号说明:

一、优化算法

CTR中经常用Logistic regression进行训练,一个常用的Loss Function为

Online gradient descent(OGD)是一个常用的优化方法,但是在加上L1正则化后,这种方法不能产生有效的稀疏模型。相比之下 Regularized Dual Averaging (RDA)拥有更好的稀疏性,但是精度不如OGD好。

FTRL-Proximal 方法可以同时得到稀疏性与精确性,不同于OGD的迭代步骤:

其中$\eta_t$是一个非增的学习率

FTRL-Proximal通过下式迭代:

其中参数 $\sigma_s$ 是学习率,一般我们有 $\sum_{s=1}^t\sigma_s=\frac{1}{\eta_t}$ 。

更新公式:

算法如下:

这里多个一个 $\lambda_2$ 是一个L2正则化参数。

二、学习率

$\displaystyle \eta_t=\frac{1}{\sqrt{t}}$

由于在求解时,这样,对每一个坐标我们都使用了同样的参数,这样一些没有使用的坐标的参数也会下降,显然这不太合理。

一个近似最优的选择是:

g是梯度向量

三、存储空间

1.特征选择

在CTR中,跟多特征仅仅出现了一次(In fact, in some of our models, half the unique features occur only once in the entire training set of billions of examples),这样特征几乎没有什么用,但是存储起来非常浪费空间。L1正则化虽然解决了一些问题,但是这样降低了一些精度,因此另一个选择是

probabilistic feature inclusion,这种方法中,一个特征第一次出现时,会以一定的概率被保存使用。关于这个概率Google尝试了两种方法:

Poisson Inclusion:以概率p增加特征,这样一般特征被加入就需要出现1/p次

Bloom Filter Inclusion:用一系列的Bloom flters来检测特征的前n次出现,一旦检测到出现了n次(因为BF有冲突,所以实际可能少于n),就加入模型并用在后面的训练中。

2.系数编码

因为大部分系数都在-2和2之间,因此使用了定点的q2.13编码,同时也保证了小数的一些精度。编码包括一位的符号,2位的整数和13位的小数。

因此误差可能在OGD算法中发散,因此使用了一个简单的随机取整策略:

R是一个0到1的随机整数。

3.多个相似模型的训练

在测试一些超参数的影响时,同时训练多个模型非常有用。观察发现,有些数据可以被多个模型共用,但是另外一些(如系数)不能,如果把模型的系数存在一个HASH表里,就可以让多个变体同时使用这些参数,比如学习率。

4.单值结构

有时我们想训练一些模型,他们之间只是删除或增加了一些特征。单值特征为每一个特征存了一个权重,权重被所有有该特征的模型共享,学习方法如下:

在OGD更新中,每个模型用他自己的的那部分特征计算一个Loss, 然后对每一个特征,每一个模型计算一个新的系数,最后把所有值平均后存为单值。该单值下一步被所有模型使用。

5.计数与梯度

假设所有事件包括统一特征的概率相同(一个粗糙但是有效的估计),其中出现了P次,没有出现N次,那么出现的概率就是p=P/(N+P),那么在logistic regression中,正事件的导数是p-1,负事件p,梯度的平方和就是:

6.采样训练数据:

CTR中的负样本远高与正样本,因此采样的数据包括满足所有的正样本和部分负样本:

在训练中给正样本1的权重,负样本1/r的权重以避免模型结果出错。权重乘如Loss Function对应项中。

四、模型评价1

1.进度验证(Progressive Validation)

因为计算梯度的同时需要计算预测值,因此可以收集这些值。在线的loss反映了算法的表现---他度量了训练一个数据前得到的预测结果。这样也使得所有数据被同时作用训练集和测试集使用。

2.可视化加强理解

上图对query进行了切片后,将两个模型与一个控制模型模型进行了比较。度量用颜色表示,每行是一个模型,每列是一个切片。

五、置信估计

六、预测矫正

矫正的数据p是模型预测的CTR,d是一些训练数据。

一个常用矫正:

两个参数可以用Poisson regression在数据上训练。

Google在KDD2013上关于CTR的一篇论文的更多相关文章

  1. google在nature上发表的关于量子计算机的论文(Quantum supremacy using a programmable superconducting processor 译)— 附论文

    Google 2019年10月23号发表在Nature(<自然><科学>及<细胞>杂志都是国际顶级期刊,貌似在上面发文两篇,就可以评院士了)上,关于量子计算(基于 ...

  2. 使用Gardener在Google Cloud Platform上创建Kubernetes集群

    Gardener是一个开源项目,github地址: https://github.com/gardener/gardener/ 使用Gardener,我们可以在几分钟之内在GCP, AWS, Azur ...

  3. 我在阿里这仨月 前端开发流程 前端进阶的思考 延伸学习的方式很简单:google 一个关键词你能看到十几篇优秀的博文,再这些博文中寻找新的关键字,直到整个大知识点得到突破

    我在阿里这仨月 Alibaba 试用期是三个月,转眼三个月过去了,也到了转正述职的时间.回想这三个月做过的事情,很多很杂,但还是有重点. 本文谈一谈工作中遇到的各种场景,需要用到的一些前端知识,以及我 ...

  4. 自监督学习(Self-Supervised Learning)多篇论文解读(上)

    自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

  5. 使用Eclipse Memory Analyzer Tool(MAT)分析线上故障(一) - 视图&功能篇

    Eclipse Memory Analyzer Tool(MAT)相关文章目录: 使用Eclipse Memory Analyzer Tool(MAT)分析线上故障(一) - 视图&功能篇 使 ...

  6. 用Visual Studio Code Debug世界上最好的语言(Mac篇)

    用Visual Studio Code Debug世界上最好的语言(Mac篇) 首先,你要有台Macbook Pro,接着才继续看这个教程. PS:Windows用户看这里用Visual Studio ...

  7. 在Google的GKE上创建支持Internal Load Balancer的Service

    在Google的Kubernetes Engine上发布service,可以采用除On-Promise相同的Cluster IP和NodePort两种方式外,还可以创建LoadBalaner的Serv ...

  8. http://dl-ssl.google.com/android上不去解决方案

    转:https://blog.csdn.net/j04110414/article/details/44149653/ 一. 更新sdk,遇到了更新下载失败问题: Fetching https://d ...

  9. 在Google map图上做标记,并把标记相连接

    <!DOCTYPE html> <html> <head> <title>GeoLocation</title> <meta name ...

随机推荐

  1. 1Z0-053 争议题目解析512

    1Z0-053 争议题目解析512 考试科目:1Z0-053 题库版本:V13.02 题库中原题为: 512.Which two statements correctly describe the r ...

  2. 给ubuntu中的软件设置desktop快捷方式(以android studio为例)

    ubuntu的快捷方式都在/usr/share/applications/路径下有很多*.desktop(eclipse的快捷方式也可以类似设置) 下面就建立我们的studio sudo gedit ...

  3. TP框架执行流程分许

    1. index.php 入口文件 2. ThinkPHP/ThinkPHP.php 在php5.3版本以后 设置常量有两种方式: const name = value; 作用域根据当前命名空间决定 ...

  4. Game中的状态机

    我相信大多数博友都会玩游戏. 玩游戏,牵涉到状态包含 登陆,正常,死亡,复活,下线, 在上面状态的基础上.同时包含 站立,走动,跑动,不可移动施法状态, 战斗状态, 通常这是三个不同的分组.也就说可以 ...

  5. 为.NET搭建Linux的开发环境,鄙视那些将简单事情复杂化的人

    写在前面的吐槽 原本跨平台开发很容易的事情, 很多人把它弄得很麻烦,给外人的感觉:你们.NET跨平台开发好不成熟,好麻烦哦. ..................................... ...

  6. Net设计模式实例之简单工厂模式(Simple Factory Pattern)

    一.简单工厂模式简介(Bref Introduction) 简单工厂模式(Simple Factory Pattern)的优点是,工厂类中包含了必要的逻辑判断,根据客户端的选择条件动态实例化相关的类, ...

  7. jquery如何判断checkbox(复选框)是否被选中 ...

    <script type="text/javascript" src="../lib/jQuery1.11.1.js"></script> ...

  8. C#操作Mongodb

    因为MongoDb 跨平台,可以免费使用,读写效率高,集群搭建简单,可以水平扩展等各种因素. 我决定研究一下Mongodb,在查看了相关文档后发现它对C#的支持不错,而且还有现成的C#的驱动, 新版的 ...

  9. membership与成员资格

    membership成员资格是ASP.NET 成员资格为您提供了一种验证和存储用户凭据的内置方法.因此,ASP.NET 成员资格可帮助您管理网站中的用户身份验证.它包含以下功能 创建新用户和密码. 将 ...

  10. 关于 window.parent, window.top, window.self 详解

    在应用有frameset或者iframe的页面时,parent是父窗口,top是最顶级父窗口(有的窗口中套了好几层frameset或者iframe),self是当前窗口,opener是用open方法打 ...