6、DRN-----深度强化学习在新闻推荐上的应用

2024-11-01 10:29:58 原文

1、摘要：

提出了一种新的深度强化学习框架的新闻推荐。由于新闻特征和用户喜好的动态特性，在线个性化新闻推荐是一个极具挑战性的问题。

虽然已经提出了一些在线推荐模型来解决新闻推荐的动态特性，但是这些方法主要存在三个问题：①只尝试模拟当前的奖励（eg：点击率）②很少考虑使用除了点击 / 不点击标签之外的用户反馈来帮助改进推荐。③ 这些方法往往会向用户推荐类似消息，这可能会导致用户感到厌烦。

基于深度强化学习的推荐框架，该框架可以模拟未来的奖励（点击率）

2、引言：

新闻推荐三个问题：

（1）新闻推荐的动态变化是难以处理的。

（2）用户的兴趣可能随着时间的变化而变化。

（3）创新

强化学习：假定一个智能体（agent），在一个未知的环境中（当前状态state），采取了一个行动（action），然后收获了一个回报（reward），并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

因此，本文提出了基于深度强化学习的推荐系统框架来解决上述提到的三个问题：

（1）首先，使用DQN网络来有效建模新闻推荐的动态变化属性，DQN可以将短期回报和长期回报进行有效的模拟。

（2）将用户活跃度作为一种新的反馈信息。

（3）使用Dueling Bandit Gradient Descent 方法来进行有效的探索。

算法的框架如下图所示：

3、问题描述：

当一个用户 u 在时间 t 向推荐系统 G 发送一个新闻请求，系统会利用一个给定的新闻候选集 I 给用户推荐一个 top-k 列表给用户。

4、模型方法：

4.1 整体架构图：

几个关键环节：

push：在每一个时刻，用户发送请求时，agent根据当前的state产生k篇新闻推荐给用户。

Feedback：通过用户对推荐新闻的点击行为得到反馈结果。

minor update：在每个时间点过后，根据用户的信息（state）和推荐的新闻（action）以及得到的反馈（reward），更新参数。

major update：在一段时间后，根据DQN的经验池中存放的历史经验，对模型参数进行更新。

6、DRN-----深度强化学习在新闻推荐上的应用的更多相关文章

一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）
一文读懂深度强化学习算法 A3C (Actor-Critic Algorithm) 2017-12-25 16:29:19 对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也 ...
(转) 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）
本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
深度强化学习（DRL）专栏（一）
目录: 1. 引言专栏知识结构从AlphaGo看深度强化学习 2. 强化学习基础知识强化学习问题马尔科夫决策过程最优价值函数和贝尔曼方程 3. 有模型的强化学习方法价值迭代策略迭代 4. ...
深度强化学习（DRL）专栏开篇
2015年,DeepMind团队在Nature杂志上发表了一篇文章名为"Human-level control through deep reinforcement learning&quo ...
深度强化学习中稀疏奖励问题Sparse Reward
Sparse Reward 推荐资料 <深度强化学习中稀疏奖励问题研究综述>1 李宏毅深度强化学习Sparse Reward4 强化学习算法在被引入深度神经网络后,对大量样本的需求更加 ...
【资料总结】| Deep Reinforcement Learning 深度强化学习
在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强 ...
深度学习课程笔记（十四）深度强化学习 --- Proximal Policy Optimization (PPO)
深度学习课程笔记(十四)深度强化学习 --- Proximal Policy Optimization (PPO) 2018-07-17 16:54:51 Reference: https://b ...
深度学习课程笔记（十三）深度强化学习 --- 策略梯度方法（Policy Gradient Methods）
深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods) 2018-07-17 16:50:12 Reference:https://www.you ...

随机推荐

利用PBFunc在Powerbuilder中进行图片格式转换
利用PBFunc的n_pbfunc_image对象可以方便的进行图片格式的转换与大小转换支持相互转换的格式有以下几种: FORMAT_BMP //bmp格式FORMAT_GIF //gif格式FO ...
javascript: 基于原型的面向对象编程
Douglas Crockford指出javascript是世界上最被误解的编程语言.由于javascript缺少常见的面向对象概念,许多程序猿认为javascript不是一个合适的语言.我在做第一个 ...
页面定制CSS代码初探（四）：cnblogs使用Github引用样式
前言对于用惯了Github的人来说,眼里的引用应该是这样的 "Talk is cheap. Show me the code" -- Linus Torvalds 然而实际上cn ...
Git的初始化设置
Git安装成功之后,新建一个初始化的仓库以及配置GitHub仓库 Git配置GitHub账户安装完成之后要进行git的配置,这里配置的是GitHub账户 MisSa@DESKTOP-PIQ06QO ...
HTML 编码规范
语法使用 4 个空格做为一个缩进层级,不允许使用 2 个空格或 tab 字符在属性上,使用双引号 "",不要使用单引号 '' 属性名 / 属性值全小写,用中划线 - 做分隔符 ...
vue如何根据返回的值对元素进行样式渲染
1.最终显示样式: 需要:根据任务状态值,显示不同颜色的原点表示任务状态,以及对优先级的数据,进行☆标记 2.代码实现: 在<el-table-column>中需要显示的内容前面,添加图标 ...
VUE：渐进式JavaScript框架（小白自学）
VUE:渐进式JavaScript框架一.官网英文 https://vuejs.org/ 中文 https://cn.vuejs.org/ 二:渐进式即有一个核心库,在需要的时候再逐渐添加插件的 ...
数组实例的 entries()，keys() 和 values()
数组实例的 entries(),keys() 和 values() entries(),keys()和values(),用于遍历数组.它们都返回一个遍历器对象,可以用for...of循环进行遍历,唯一 ...
题解 CF1051F 【The Shortest Statement】
这道题思路比较有意思,第一次做完全没想到点子上... 看到题目第一反应是一道最短路裸题,但是数据范围1e5说明完全不可能. 这个时候可以观察到题目给出了一个很有意思的条件,就是说边最多比点多20. 这 ...
加密中加salt的意思
所谓加Salt,就是加点“佐料”.当用户首次提供密码时(通常是注册时),由系统自动往这个密码里加一些“Salt值”,这个值是由系统随机生成的,并且只有系统知道.然后再散列.而当用户登录时,系统为用户提 ...