推荐系统实践 0x0f AutoRec

从这一篇开始，我们开始学习深度学习推荐模型，与传统的机器学习相比，深度学习模型的表达能力更强，并且更能够挖掘出数据中潜藏的模式。另外。深度学习模型结构也非常灵活，能够根据业务场景和数据结构进行调整。还是原来的样子，我会按照原理以及代码实现，再就是一些优缺点进行逐一介绍。

AutoRec

AutoRec可以说是最小的深度学习推荐系统了，它是一种单隐层神经网络推荐模型，将自编码器与协同过滤相结合。那么什么是自编码器呢？自编码器可以看做是一种压缩维度的工具，无论是图像、音频、还是文本，都能够通过自编码器转换成向量形式进行表达，假设我们的输入（无论是图像、音频等等）的数据向量是\(r\)，那么希望通过自编码器的输出向量尽可能接近原来的数据输入\(r\)。

假设自编码器的重建函数是\(h(r;\theta)\)，那么自编码器的目标函数是：

\[\min_{\theta}\sum_{r\in S}||r-h(r;\theta)||_2^2
\]

其中的\(S\)就是所有数据输入的向量结合。

一般来说，重建函数\(h(r;\theta)\)的参数量远远小于输入向量的维度，所以自编码器相当于完成了数据压缩和降维的工作。并且，通过自编码器生成的输出向量，使得自编码器的编码过程有一定的泛化能力，可以预测丢失的维度信息，这也是自编码器能够用于推荐系统的原因。

模型结构

在之前的文章中我们介绍了协同过滤的关键——共现矩阵。就是因为由\(m\)个用户以及\(n\)的物品形成的\(m\times n\)的共现矩阵维度太高，所以我们需要使用一个重建函数对共现矩阵里面的评分向量进行压缩，然后经过评分预估以及排序之后形成最终的排序列表。AutoRec使用了单隐层神经网络结构来实现自编码器的功能。如下图所示。

蓝色神经元代表模型的\(k\)维单隐层，也就是压缩之后的向量，\(V\)以及\(W\)代表从输入到隐层、从隐层到输出层的参数矩阵。那么写成重建函数的形式就是

\[h(r;\theta)=f(W\cdot g(Vr+\mu)+b)
\]

\(f(\cdot)\)以及\(g(\cdot)\)为输出层和隐层神经元的激活函数。为了防止重构函数（单隐层神经网络、或者说三层神经网络）的过拟合，再加上\(L2\)正则化项，那么AutoRec的目标函数就是

\[\min_{\theta}\sum_{r=1}^{n}||r^{(i)}-h(r;\theta)||_O^2+\frac{\lambda}{2}(||W||_{F}^{2}+|V||_{F}^2)
\]

\(||\cdot||_F\)为Frobenius范数.

局限性

无法进行特征交叉，表达能力相对于后面更复杂的深度学习模型还是表达能力不足。由于AutoRec的简单明了，作为入门的深度学习推荐模型再合适不过了。

代码

## 模型部分

class Autorec(nn.Module):

    def __init__(self,args, num_items):

        super(Autorec, self).__init__()

        self.args = args

        #self.num_users = num_users

        self.num_items = num_items

        self.hidden_units = args.hidden_units

        self.lambda_value = args.lambda_value

        self.encoder = nn.Sequential(

            nn.Linear(self.num_items, self.hidden_units),

            nn.Sigmoid()

        )

        self.decoder = nn.Sequential(

            nn.Linear(self.hidden_units, self.num_items),

        )

    def forward(self,torch_input):

        encoder = self.encoder(torch_input)

        decoder = self.decoder(encoder)

        return decoder

## 损失函数部分

def loss(self, decoder, input, optimizer, mask_input):

    cost = 0

    temp2 = 0

    cost += ((decoder - input) * mask_input).pow(2).sum()

    rmse = cost

    for i in optimizer.param_groups:

        for j in i['params']:

            # print(type(j.data), j.shape,j.data.dim())

            if j.data.dim() == 2:

                temp2 += torch.t(j.data).pow(2).sum()

    cost += temp2 * self.lambda_value * 0.5

    return cost, rmse

参考

AutoRec: Autoencoders Meet Collaborative Filtering

Github:NeWnIx5991/AutoRec-for-CF

随机推荐

不要再说不会Spring了！Spring第一天，学会进大厂！
工作及面试的过程中,作为Java开发,Spring环绕在我们的身边,很多人都是一知半解,本次将用14天时间,针对容器中注解.组件.源码进行解读,AOP概念进行全方面360°无死角介绍,SpringMV ...
04、MyBatis DynamicSQL(Mybatis动态SQL)
1.动态SQL简介动态 SQL是MyBatis强大特性之一. 动态 SQL 元素和使用 JSTL 或其他类似基于 XML 的文本处理器相似. MyBatis 采用功能强大的基于 OGNL 的表达式来 ...
精尽 MyBatis 源码分析 - 整体架构
该系列文档是本人在学习 Mybatis 的源码过程中总结下来的,可能对读者不太友好,请结合我的源码注释(Mybatis源码分析 GitHub 地址.Mybatis-Spring 源码分析 GitHub ...
C#设计模式——代理模式（Proxy Pattern）
引言在我们的生活中,经常会遇到需要什么东西,但是自己又不是很方便或者对方不是很方便,则就需要中间的一个代理人去解决.例如代购.在软件开发中,也会遇到这样的问题.有些对象有时候会由于网络或其他的障碍, ...
工作一年半被裁掉，机缘巧合拿到阿里P7offer，得亏我看过这份“突击”面试宝典
前言不论是校招还是社招都避免不了各种⾯试.笔试,如何去准备这些东⻄就显得格外重要.不论是笔试还是⾯试都是有章可循的,我这个"有章可循"说的意思只是说应对技术⾯试是可以提前准备,所 ...
ABBYY FineReader 15 PDF有哪些好用的功能？
ABBYY FineReader 15(Windows系统)OCR文字识别软件中的PDF编辑器,是一个对用户相当友好的编辑器,不仅可以在其中查看,搜索PDF文档,还可以用以编辑文本,添加备注,添加与删 ...
Maven更换阿里源与仓库地址
一.为什么要更换maven中的阿里源和仓库地址? 因为咱们下载安装的maven默认配置的源的服务器在国外,所以对于咱们来说,下载jar包的速度会很慢,所以咱们要把它替换为咱们国内的,可以换成好多,如华 ...
SRX_Test_2_sound
声音(sound) [问题描述] 雅礼中学的校门口在修建地铁,而由此带来的噪音问题让周边的居民困扰不已.环保局正在研究一项评估模型,可以定量评价噪音的危害程度.这项评估模型是这样的:将每一条街道视作 ...
JQuery案例：折叠菜单
折叠菜单(jquery) <html> <head> <meta charset="UTF-8"> <title>accordion ...
python2.7，python3.6，python3.8多版本windows10安装，pip共存
1.官网下载安装包,建议安装32位,自动兼容X64 x86是32位,x86-64是64位. 可以通过下面3种途径获取python: web-based installer 是需要通过联网完成安装的 e ...

推荐系统实践 0x0f AutoRec

AutoRec

模型结构

推荐过程

局限性

代码

参考

推荐系统实践 0x0f AutoRec的更多相关文章

随机推荐

热门专题