推荐算法之---FM算法；

一，FM算法：

1，逻辑回归上面进行了交叉特征。算法复杂度优化从O(n^3)->O(k*n^2)->O(k*n)。

2，本质：每个特征都有一个k维的向量，代表的是每个特征都有k个不可告人的信息。（FFM：面对不同的字段field都有k个不可告人的信息。）所以，得到了n*k的矩阵，每一行就是每一个特征的向量。

3，原理推导：https://zhuanlan.zhihu.com/p/37963267

4，代码：https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge/blob/master/model_zoo/fm.py

二，FFM算法：

1，FM上面多了一层field信息。

2，本质：每个特征面对不同的字段field都有k个不可告人的信息。

3，原理推导：

4，代码：

三，DeepFM：

1，把所有特征都embedding，FM和DNN并行。

2，本质：（DNN学习了高阶特征，两个模型共享了embedding。）

3，原理推导：https://www.jianshu.com/p/6f1c2643d31b https://blog.csdn.net/horizonheart/article/details/89632046

4，代码：

5，优点：

不需要预训练FM得到隐向量
不需要人工特征工程
能同时学习低阶和高阶的组合特征
FM模块和Deep模块共享Feature Embedding部分，可以更快的训练，以及更精确的训练学习

四，wide&deep：

1，把逻辑回归和深度学习进行了结合，神经网络学习出来的向量和特征一起给逻辑回归。

2，本质：准确性和多样性。wide负责记忆，深度进行泛化（业务理解：多样性，尤其是对于没有同时出现过的特征）https://zhuanlan.zhihu.com/p/57247478

3，原理

4，代码：

五：模型之间的对比：

https://blog.csdn.net/ISMedal/article/details/100578354

在CTR预估以及推荐系统等场合下：

LR: LR最大的缺点就是无法组合特征，依赖于人工的特征组合，这也直接使得它表达能力受限，基本上只能处理线性可分或近似线性可分的问题。
FM: FM通过隐向量latent vector做内积来表示组合特征，从理论上解决了低阶和高阶组合特征提取的问题。但是实际应用中受限于计算复杂度，一般也就只考虑到2阶交叉特征。后面又进行了改进，提出了FFM，增加了Field的概念。
CNN: CNN模型的缺点是：偏向于学习相邻特征的组合特征。
RNN: RNN模型的缺点是：比较适用于有序列(时序)关系的数据。
FNN: 先使用预先训练好的FM，得到隐向量，然后作为DNN的输入来训练模型。缺点在于：受限于FM预训练的效果，Embedding的参数受FM的影响，不一定准确；预训练阶段增加了计算复杂度，训练效率低; FNN只能学习到高阶的组合特征。模型中没有对低阶特征建模。
PNN: PNN为了捕获高阶组合特征，在embedding layer和first hidden layer之间增加了一个product layer。但是内积的计算复杂度依旧非常高，原因是：product layer的输出是要和第一个隐藏层进行全连接的;product layer的输出需要与第一个隐藏层全连接，导致计算复杂度居高不下;和FNN一样，只能学习到高阶的特征组合。没有对于1阶和2阶特征进行建模。
Wide&Deep：同时学习低阶和高阶组合特征，它混合了一个线性模型（Wide part）和Deep模型(Deep part)。这两部分模型需要不同的输入，而Wide part部分的输入，依旧依赖人工特征工程。

但是，这些模型普遍都存在一个问题：偏向于提取低阶或者高阶的组合特征。不能同时提取这两种类型的特征。 需要专业的领域知识来做特征工程。无论是FNN还是PNN，他们都有一个绕不过去的缺点：对于低阶的组合特征，学习到的比较少。

DeepFM：在Wide&Deep的基础上进行改进，不需要预训练FM得到隐向量，不需要人工特征工程，能同时学习低阶和高阶的组合特征；FM模块和Deep模块共享Feature Embedding部分，可以更快的训练，以及更精确的训练学习。

六，深度学习：

1，https://www.cnblogs.com/liuyihai/p/8448977.html

2，

随机推荐

batchsize用法平均准确度和平均损失，以及实现前向运算的矩阵乘法方式，loss怎么反向传播的
batchsize用法平均准确度和平均损失,以及实现前向运算的矩阵乘法方式,loss怎么反向传播的待办使用batchsize可以把矩阵缩小,采用矩阵乘法的形式可以一次计算多个经过神经网络的结果, ...
[CodeForces]Educational Round 52
幸好我没有打这场,我VP的时候在C题就卡死了,我果然还是太菜了. A Vasya and Chocolate 题意:一个巧克力$c$元,买$a$赠$b$,一共有$n$元,问能买几个巧克 ...
python如何离线装包离线如何部署python环境
1,安装python windows: 我用的是python3.6.6.exe安装包,需要提前下载好 ubuntu: 自带的python,如果是ubuntu18.04的话,自带的应该是3.6.8 2, ...
util之Set
1.定义: Set<Integer>set = new TreeSet<Integer>(); 注意: TreeSet 是二差树实现的,Treeset中的数据是自动排好序的,不 ...
layui表单之单选框提交
<div class="layui-form-item"> <label class="layui-form-label">状态< ...
input如何上传文件
1)绑定input[type='file']的change事件 <input @change="uploadPhoto($event)" type="file&qu ...
题解【洛谷P3662】[USACO17FEB]Why Did the Cow Cross the Road II S
本题是练习前缀和的好题!我们可以枚举前端点,确定一个长度为k的区间,然后利用前缀和统计区间内损坏的灯的数量,最后取最小值即可.AC代码: #include <bits/stdc++.h> ...
python 小故事1
def test(a:str,b:int)->str: print(test.__annotations__) return a+str(b) def doc_print(): "&q ...
jmeter的使用---用户变量
用户变量有以下方式: 一.外部引入:csv引入参数二.sample传递参数:http请求的body参数三.定义用户变量:全局变量 (1)用户定义的变量 name,和value 一对一 (2)用 ...
centos7安装Nginx 配置及反向代理
Nginx是俄罗斯人编写的十分轻量级的HTTP服务器,Nginx,它的发音为“engine X”,是一个高性能的HTTP和反向代理服务器,同时也是一个IMAP/POP3/SMTP 代理服务器．Ngin ...

推荐算法之---FM算法；

推荐算法之---FM算法；的更多相关文章

随机推荐

热门专题