FM算法及FFM算法

转自：http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html

http://blog.csdn.net/google19890102/article/details/45532745

FM原理 =>解决稀疏数据下的特征组合问题，

1) 可用于高度稀疏数据场景；2) 具有线性的计算复杂度

对于categorical(类别)类型特征，需要经过One-Hot Encoding转换成数值型特征。CTR/CVR预测时，用户的性别、职业、教育水平、品类偏好，商品的品类等，经过One-Hot编码转换后都会导致样本数据的稀疏性。特别是商品品类这种类型的特征，如商品的末级品类约有550个，采用One-Hot编码生成550个数值特征，但每个样本的这550个特征，有且仅有一个是有效的（非零）。由此可见，经过One-Hot编码之后，大部分样本数据特征是比较稀疏的(即特定样本的特征向量很多维度为0)，同时导致特征空间大。(对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征(取值0或1)。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的.) sklearn中preprocessing.OneHotEncoder实现该编码方法。

通过观察大量的样本数据可以发现，某些特征经过关联之后，与label之间的相关性就会提高。例如，“USA”与“Thanksgiving”、“China”与“Chinese New Year”这样的关联特征，对用户的点击有着正向的影响。换句话说，来自“China”的用户很可能会在“Chinese New Year”有大量的浏览、购买行为，而在“Thanksgiving”却不会有特别的消费行为。这种关联特征与label的正向相关性在实际问题中是普遍存在的，如“化妆品”类商品与“女”性，“球类运动配件”的商品与“男”性，“电影票”的商品与“电影”品类偏好等。因此，引入两个特征的组合是非常有意义的。(我的理解：个性化特征)

一般的线性模型为：

从上面的式子很容易看出，一般的线性模型压根没有考虑特征间的关联(组合)。为了表述特征间的相关性，我们采用多项式模型。在多项式模型中，特征x_i与x_j的组合用x_ix_j表示。为了简单起见，我们讨论二阶多项式模型。具体的模型表达式如下：

上式中，n表示样本的特征数量,x_i表示第i个特征。
与线性模型相比，FM(Factorization Machine)的模型就多了后面特征组合的部分。

从公式(1)可以看出，组合特征的参数一共有 n(n−1)/2 个，任意两个参数都是独立的。然而，在数据稀疏性普遍存在的实际应用场景中，二次项参数的训练是很困难的。其原因是，每个参数 w_ij 的训练需要大量 x_i 和x_j都非零的样本；由于样本数据本来就比较稀疏，满足“x_i 和 x_j 都非零”的样本将会非常少。训练样本的不足，很容易导致参数 w_ij 不准确，最终将严重影响模型的性能。

如何解决二次项参数的训练问题呢？矩阵分解提供了一种解决思路。在model-based的协同过滤中，一个rating矩阵可以分解为user矩阵和item矩阵，每个user和item都可以采用一个隐向量表示。我们把每个user表示成一个二维向量，同时把每个item表示成一个二维向量，两个向量的点积就是矩阵中user对item的打分。

类似地，所有二次项参数W _i,j可以组成一个对称阵W,那么这个矩阵就可以分解为 W=VV^T,V的第i行便是第i维特征的隐向量。换句话说，每个参数W _i,j = <V _i,V _j>.

V_i表示 X _i 的隐向量, V_j 表示 X _j 的隐向量

为了求出 W _i,j, 我们对每一个特征分量 X_i 引入辅助向量

然后，利用对进行求解。对辅助向量的维度k值的限定，反映了FM模型的表达能力。

那么ωij组成的矩阵可以表示为:

则FM的模型方程为：

$\hat{y}:=w_0+\sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}\left \langle \textbf{v}_i,\textbf{v}_j \right \rangle x_ix_j$

则二次项的参数数量减少为kn个，远少于多项式模型的参数数量.我觉得上式应该是w _i,j = <v_i,v^T_j>,但是上面的写法才是对的，因为是点乘，两向量得是相同维度。还有i的取值为1到n-1,j的取值是i+1到n，因为特征不可能自己和自己组合

FM算法的求解过程：

$\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}\left \langle \textbf{v}_i,\textbf{v}_j \right \rangle x_ix_j\\ =\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}\left \langle \textbf{v}_i,\textbf{v}_j \right \rangle x_ix_j-\frac{1}{2}\sum_{i=1}^{n}\left \langle \textbf{v}_i,\textbf{v}_i \right \rangle x_ix_i\\ =\frac{1}{2}\left ( \sum_{i=1}^{n}\sum_{j=1}^{n}\sum_{f=1}^{k}v_{i,f}v_{j,f}x_ix_j- \sum_{i=1}^{n}\sum_{f=1}^{k}v_{i,f}v_{i,f}x_ix_i\right )\\ =\frac{1}{2}\sum_{f=1}^{k}\left ( \left ( \sum_{i=1}^{n}v_{i,f}x_i \right )\left ( \sum_{j=1}^{n}v_{j,f}x_j \right ) -\sum_{i=1}^{n}v_{i,f}^2x_i^2\right )\\ =\frac{1}{2}\sum_{f=1}^{k}\left ( \left ( \sum_{i=1}^{n}v_{i,f}x_i \right )^2-\sum_{i=1}^{n}v_{i,f}^2x_i^2 \right )$ 我的理解：第一步是一个矩阵(矩阵中所有元素求和)减去对角线部分，然后除以2。多项式部分的计算复杂度是O(kn).即FM可以在线性时间对新样本作出预测

回归问题：最小均方误差(the least square error) 均方(一组数的平方的平均值)

$loss^{R}\left ( \hat{y},y \right )=\frac{1}{2}\sum_{i=1}^{m}\left ( \hat{y}^{(i)}-y^{(i)} \right )^2$

二分类问题：对数损失函数，其中 $\sigma$ 表示的是阶跃函数Sigmoid $\sigma \left ( x \right )=\frac{1}{1+e^{-x}}$

对数损失是用于最大似然估计的，一组参数在一堆数据下的似然值，等于每一条数据的概率之积，而损失函数一般是每条数据的损失之和，为了把积变为和(我的理解：方便计算)，就取了对数。再加个负号是为了让最大似然值和最小损失对应起来(本来求和最大时对应的参数，加上负号后，求和最小时对应的参数，则等价于求最小损失)。

$loss^{C}\left ( \hat{y},y \right )=\sum_{i=1}^{m}-ln\sigma \left ( \hat{y}^{(i)}y^{(i)} \right )$ 这个就是标准形式的对数损失函数，将sigmoid函数带入，符号抵消，即为log(1+exp(-yf(x)))

对于回归问题：可以理解为SGD,单样本训练

$\frac{\partial loss^R\left ( \hat{y},y \right )}{\partial \theta }=2\left ( \hat{y}-y \right )\frac{\partial \hat{y}}{\partial \theta }$

对于二分类问题：

$\frac{\partial loss^C\left ( \hat{y},y \right )}{\partial \theta }=-\frac{1}{\sigma \left ( \hat{y}y \right )}\sigma \left ( \hat{y}y \right )\cdot \left [ 1-\sigma \left ( \hat{y}y \right ) \right ]\cdot y\cdot \frac{\partial \hat{y}}{\partial \theta }\\ =\left [ \sigma \left ( \hat{y}y \right )-1 \right ]\cdot y\cdot \frac{\partial \hat{y}}{\partial \theta }$

$\frac{\partial \hat{y}}{\partial \theta }=\begin{cases} 1, & \text{ if } \theta = w_0\\ x_i, & \text{ if } \theta = w_i \\ x_i\sum_{j=1}^{n}v_{j,f}x_j-v_{i,f}x_i^2, & \text{ if } \theta = v_{i,f} \end{cases}$ <=(由左式可知，Vi,f的训练只需要样本的Xi特征非0即可，适合于稀疏数据)

在使用SGD训练模型时，在每次迭代中，只需计算一次所有f的，就能够方便得到所有V_i,f的梯度，(上述偏导结果求和公式中没有i,即与i无关，只与f有关)显然计算所有f的的复杂度是O(kn),模型参数一共有nk + n + 1个。因此，FM参数训练的复杂度也是O(kn).综上可知，FM可以在线性时间训练和预测，是一种非常高效的模型。

我的理解：正则化系数用于衡量正则项与损失项的比重

总结：FM是一种比较灵活的模型，通过合适的特征变换方式，FM可以模拟二阶多项式核的SVM模型、MF模型、SVD++模型等。相比SVM的二阶多项式核而言，FM在样本稀疏的情况下是有优势的；而且，FM的训练/预测复杂度是线性的，而二项多项式核SVM需要计算核矩阵，核矩阵复杂度就是N平方。SVD++与MF类似，在特征的扩展性上都不如FM，在此不再赘述。

转自：

http://blog.csdn.net/itplus/article/details/40534923

http://blog.csdn.net/itplus/article/details/40536025

logistic回归两种形式：

第一种形式：label取值为0或1

第二种形式：将label和预测函数放在一起，label取值为1或-1

显然，，上述两种形式等价。

第一种形式的分类法则：

第二种形式的分类法则：

第一种形式的损失函数可由极大似然估计推出，对于第二种形式的损失函数（标准的对数损失函数形式，参考https://en.wikipedia.org/wiki/Loss_functions_for_classification 中的logistic loss）,

左式将分数倒过来，负号提出来，就得到常见的对数损失函数的形式

其中，

则loss最小化可表示为：

上式最后即为极大似然估计的表示形式，则logistic回归模型使用的loss函数为对数损失函数，使用极大似然估计的目的是为了使loss函数最小。

参考： https://www.zybuluo.com/frank-shaw/note/143260

FM算法及FFM算法的更多相关文章

FFM算法解析及Python实现
1. 什么是FFM? 通过引入field的概念,FFM把相同性质的特征归于同一个field,相当于把FM中已经细分的feature再次进行拆分从而进行特征组合的二分类模型. 2. 为什么需要FFM? ...
ffm算法
www.csie.ntu.edu.tw/~cjlin/papers/ffm.pdf 读书笔记 The effect of feature conjunctions(组合特征) is difficul ...
FM算法(一)：算法理论
主要内容: 动机 FM算法模型 FM算法VS 其他算法一.动机在传统的线性模型如LR中,每个特征都是独立的,如果需要考虑特征与特征直接的交互作用,可能需要人工对特征进行交叉组合:非线性SVM可 ...
个性化排序算法实践(二)——FFM算法
场感知分解机(Field-aware Factorization Machine ,简称FFM)在FM的基础上进一步改进,在模型中引入类别的概念,即field.将同一个field的特征单独进行one- ...
分布式一致性算法：Raft 算法（论文翻译）
Raft 算法是可以用来替代 Paxos 算法的分布式一致性算法,而且 raft 算法比 Paxos 算法更易懂且更容易实现.本文对 raft 论文进行翻译,希望能有助于读者更方便地理解 raft 的 ...
算法：KMP算法
算法:KMP排序算法分析 KMP算法是一种快速的模式匹配算法.KMP是三位大师:D.E.Knuth.J.H.Morris和V.R.Pratt同时发现的,所以取首字母组成KMP. 少部分图片来自孤~影 ...
BF算法与KMP算法
BF(Brute Force)算法是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符:若不相等,则比较S的 ...
Levenshtein Distance算法（编辑距离算法）
编辑距离编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符, ...
javascript数据结构与算法--高级排序算法
javascript数据结构与算法--高级排序算法高级排序算法是处理大型数据集的最高效排序算法,它是处理的数据集可以达到上百万个元素,而不仅仅是几百个或者几千个.现在我们来学习下2种高级排序算法-- ...

随机推荐

$.noconflict() 有什么用处
jQuery默认使用"$"操作符,prototype等其他框架也是是使用"$",于是,如果jQuery在其他库之后引入,那么jQuery将获得"$&q ...
如何在一次请求中通过JS中获取Url中的参数
从A跳转到B,携带参数例如: /pc/B.jsp?item=123456 B页面在js可以直接用 var item='${param.item}'; 这样就拿到啦还有一种方法定义一个函数 f ...
优先队列 || POJ 1442 Black Box
给n个数,依次按顺序插入,第二行m个数,a[i]=b表示在第b次插入后输出第i小的数 *解法:写两个优先队列,q1里由大到小排,q2由小到大排,保持q2中有i-1个元素,那么第i小的元素就是q2的to ...
swift中的as?和as!
as操作符用来把某个实例转型为另外的类型,由于实例转型可能失败,因此Swift为as操作符提供了两种形式:选项形式as?和强制形式as 选项形式(as?)的操作执行转换并返回期望类型的一个选项值,如果 ...
spring源码深度解析—Spring的整体架构和环境搭建
概述 Spring是一个开放源代码的设计层面框架,他解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用.Spring是于2003 年兴起的一个轻量级的Java 开发框 ...
[AI开发]基于DeepStream的视频结构化解决方案
视频结构化的定义利用深度学习技术实时分析视频中有价值的内容,并输出结构化数据.相比数据库中每条结构化数据记录,视频.图片.音频等属于非结构化数据,计算机程序不能直接识别非结构化数据,因此需要先将这些 ...
使用JQuery.slideBox实现图片滚动效果
1.下载JQuery.slideBox和jquery插件,并引用 <link href="css/jquery.slideBox.css" rel="stylesh ...
STM32F407 外部中断个人笔记
IO口 STM32F4有上百个IO口中,每个都可以作为外部中断输入中断线 STM32F4的中断控制器支持22个外部中断/事件请求(中断线) 对于每个中断线,我们可以设置相应的触发方式(上升沿触发,下 ...
使用PL/SQL将sql脚本数据导入数据库
一. PL/SQL登录到数据库,使用tools工具进行导入.使用plsql登录到需要导入数据的数据库.点击工具栏上[tools]--[Import tables] 二.commit;
spring用到的设计模式
https://www.cnblogs.com/yuefan/p/3763898.html https://www.cnblogs.com/hwaggLee/p/4510687.html https: ...

FM算法及FFM算法

FM算法及FFM算法的更多相关文章

随机推荐

热门专题