FFM原理及公式推导

原文来自:博客园（华夏35度）http://www.cnblogs.com/zhangchaoyang 作者:Orisun

上一篇讲了FM（Factorization Machines），说一说FFM（Field-aware Factorization Machines ）。

回顾一下FM：

$\begin{equation}\hat{y}=w_0+\sum_{i=1}^n{w_ix_i}+\sum_{i=1}^n{\sum_{j=i+1}^n{v_i\cdot v_jx_ix_j}}\label{fm}\end{equation}$ (1)
$\cdot$表示向量的内积。样本$x$是$n$维向量，$x_i$是第$i$个维度上的值。$v_i$是$x_i$对应的长度为$K$的隐向量，$V$是模型参数，所以所有样本都使用同一个$V$，即$x_{1,1}$与$x_{2,1}$都使用$v_1$。

在FFM（Field-aware Factorization Machines ）中每一维特征（feature）都归属于一个特定的field，field和feature是一对多的关系。比如

field	field1年龄	field2城市			field3性别
feature	x1年龄	x2北京	x3上海	x4深圳	x5男	x6女
用户1	23	1	0	0	1	0
用户2	31	0	0	1	0	1

1. 对于连续特征，一个特征就对应一个Field。或者对连续特征离散化，一个分箱成为一个特征。比如

field	field1年龄
feature	小于20	20-30	30-40	大于40
用户1	0	23	0	0
用户2	0	0	31	0

2. 对于离散特征，采用one-hot编码，同一种属性的归到一个Field

不论是连续特征还是离散特征，它们都有一个共同点：同一个field下只有一个feature的值不是0，其他feature的值都是0。

FFM模型认为$v_i$不仅跟$x_i$有关系，还跟与$x_i$相乘的$x_j$所属的Field有关系，即$v_i$成了一个二维向量$v_{F\times K}$，$F$是Field的总个数。FFM只保留了(1)中的二次项.

$\begin{equation}\hat{y}=\sum_{i=1}^n{\sum_{j=i+1}^n{v_{i,fj}\cdot v_{j,fi}x_ix_j}}\label{ffm}\end{equation}$(2)

以上文的表格数据为例，计算用户1的$\hat{y}$

$\hat{y}=v_{1,f2}\cdot v_{2,f1}x_1x_2+v_{1,f3}\cdot v_{3,f1}x_1x_3+v_{1,f4}\cdot v_{4,f1}x_1x_4+\cdots$

由于$x_2,x_3,x_4$属于同一个Field，所以$f2,f3,f4$可以用同一个变量来代替，比如就用$f2$。

$\hat{y}=v_{1,f2}\cdot v_{2,f1}x_1x_2+v_{1,f2}\cdot v_{3,f1}x_1x_3+v_{1,f2}\cdot v_{4,f1}x_1x_4+\cdots$

我们来算一下$\hat{y}$对$v_{1,f2}$的偏导。

$\hat{y}=v_{1,f2}\cdot v_{2,f1}x_1x_2+v_{1,f2}\cdot v_{3,f1}x_1x_3+v_{1,f2}\cdot v_{4,f1}x_1x_4+\cdots$

等式两边都是长度为$K$的向量。

注意$x_2,x_3,x_4$是同一个属性的one-hot表示，即$x_2,x_3,x_4$中只有一个为1，其他都为0。在本例中$x_3=x_4=0, x_2=1$，所以

$\frac{\partial{\hat{y}}}{\partial{v_{1,f2}}}=v_{2,f1}x_1x_2$

推广到一般情况：

$\begin{equation}\frac{\partial{\hat{y}}}{\partial{v_{i,fj}}}=v_{j,fi}x_ix_j\label{par}\end{equation}$(3)

$x_j$属于Field$fj$，且同一个Field里面的其他$x_m$都等于0。实际项目中$x$是非常高维的稀疏向量，求导时只关注那些非0项即可。

你一定有个疑问：$v$是模型参数，为了求$v$我们$\cdot$采用梯度下降法时需要计算损失函数对$v$的导数，为什么这里要计算$\hat{y}$对$v$的导数？看看分割线下方的内容你就明白了。

在实际预测点击率的项目中我们是不会直接使用公式(2)的，通常会再套一层sigmoid函数。公式(2)中的y^我们用z来取代。

$z=\phi(v,x)=\sum_{i=1}^n{\sum_{j=i+1}^n{v_{i,fj}\cdot v_{j,fi}x_ix_j}}$

由公式(3)得

$\frac{\partial{z}}{\partial{v_{i,fj}}}=v_{j,fi}x_ix_j$

用$a$表示对点击率的预测值

$a=\sigma(z)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\phi(v,x)}}$

令$y=0$表示负样本，$y=1$表示正样本，$C$表示交叉熵损失函数。根据《神经网络调优》中的公式(1)(2)可得

$\frac{\partial C}{\partial z}=a-y=\left\{\begin{matrix}-\frac{1}{1+e^z} & if\ y是正样本 \\ \frac{1}{1+e^{-z}} & if\ y是负样本\end{matrix}\right .$

$\frac{\partial C}{\partial{v_{i,fj}}}=\frac{\partial C}{\partial z}\frac{\partial{z}}{\partial{v_{i,fj}}}$

看完了本博客再去看论文《Field-aware Factorization Machines for CTR Prediction》中的公式推导应该就比较容易了吧，在该论文中他是以$y=1$代表正样本，$y=−1$代表负样本，所以才有了3.1节中的

$\kappa=\frac{\partial C}{\partial z}=\frac{-y}{1+e^{yz}}$

FFM原理及公式推导的更多相关文章

XGBoost原理和公式推导
本篇文章主要介绍下Xgboost算法的原理和公式推导.关于XGB的一些应用场景在此就不赘述了,感兴趣的同学可以自行google.下面开始: 1.模型构建构建最优模型的方法一般是最小化训练数据的损失 ...
深入FM和FFM原理与实践
FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩.美团点评技术团队在搭建DSP的过 ...
深入理解FFM原理与实践
原文:http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html 深入理解FFM原理与实践 del2 ...
FM/FFM原理
转自https://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html 深入FFM原理与实践 del2z, ...
NDT（Normal Distributions Transform）算法原理与公式推导
正态分布变换(NDT)算法是一个配准算法,它应用于三维点的统计模型,使用标准最优化技术来确定两个点云间的最优的匹配,因为其在配准过程中不利用对应点的特征计算和匹配,所以时间比其他方法快.下面的公式推导 ...
线性模型之逻辑回归(LR)(原理、公式推导、模型对比、常见面试点)
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读,方可全面了解LR): (1).https://zhuanlan.zhihu.com/p/74874291 (2).逻辑回归与交叉熵 (3) ...
GAN 原理及公式推导
Generative Adversarial Network,就是大家耳熟能详的 GAN,由 Ian Goodfellow 首先提出,在这两年更是深度学习中最热门的东西,仿佛什么东西都能由 GAN 做 ...
机器学习 | 详解GBDT在分类场景中的应用原理与公式推导
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第31篇文章,我们一起继续来聊聊GBDT模型. 在上一篇文章当中,我们学习了GBDT这个模型在回归问题当中的原理.GBD ...
深度学习中常见的 Normlization 及权重初始化相关知识（原理及公式推导）
Batch Normlization(BN) 为什么要进行 BN 防止深度神经网络,每一层得参数更新会导致上层的输入数据发生变化,通过层层叠加,高层的输入分布变化会十分剧烈,这就使得高层需要不断去重新 ...

随机推荐

wk_10.md
Python检测和处理异常 try-except语句 try-except语句定义了进行异常监控的一段代码,并且提供了异常处理的机制,下面是使用的语法: try: # 可能抛出异常的语句,会一直执行, ...
Hibernate三种状态；query查询；ResultTransformer转换为pojo对象；能够将query语句写在xml中；Criteria查询；ProjectionList总和/f分组等函数
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/u010026901/article/details/24256091 Session操作过程中的po ...
微软YY公开课[《微软中国云计算Azure平台体验与新企业架构设计》周六晚9点
YY频道是 52545291//@_勤_: YY账号真的是一次一账号啊! 全然记不得之前注冊的//@老徐FrankXuLei: 最火爆的微软免费公开课.第一次顶峰126人.第二次96人.第三次我们又来 ...
tomcat服务器宕机解决方案
报错信息: java.lang.Object.wait(Native Method) java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:1 ...
文件上传 python
def upload(): r = requests.post( url='http://upload.renren.com/upload.fcgi?pagetype=addpublishersing ...
C语言程序设计I—第十周教学
第十周教学总结(04/11-10/11) 教学内容第4章循环结构-while /do-while语句 4.1用格里高利公式求π的近似值,4.2 统计一个整数的位数课前准备在蓝墨云班课发布资源: ...
Windows App开发之应用布局与基本导航
简单演示样例看页面布局和导航首先依照上一篇博客中的顺序来新建一个项目.新建好之后就点开MainPage.xaml開始写程序了. <Grid Background="{ThemeRes ...
解决安装macports更新失败问题
安装 macports 先是卡在开始,xcode的路径指定错误,重新指定一下,然后再sudo port selfupdate,就卡再ports.tar那里不动了.经过google和百度查到参考网 ...
vue实现首页导航切换不同路由的方式
vue实现切换首页路由导航 ,根据切换的不同导航跳转不同的路由,以及当前选中的导航添加选中样式. html代码: <nav>  <div cla ...
C++快速开发样本工程的建立--简介
背景在开发项目过程中,一些功能库能反复被写被用,可以写成库被重用: 但是行业业务也随着换项目,每次重新写一次,如果把一些功能业务和框架绑定,配置绑定,只需要添加,修改,增加业务功能,就可以搭建C++ ...

FFM原理及公式推导

FFM原理及公式推导的更多相关文章

随机推荐

热门专题