Click can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issue

Authors: 王文杰,冯福利,何向南,张含望,蔡达成

SIGIR'21 新加坡国立大学,中国科学技术大学,南洋理工大学

论文链接:https://dl.acm.org/doi/pdf/10.1145/3404835.3462962

本文链接:https://www.cnblogs.com/zihaojun/p/15713705.html


0. 总结

这篇文章在不引入用户反馈信息的情况下,利用物品的外观特征(exposure feature)和内容特征(content feature),用反事实推断的方法,去除物品外观特征对推荐结果的直接影响,解决推荐系统中“标题党”的问题。

1. 问题背景

在推荐系统的训练数据中,通常将用户点击过的物品作为正样本进行训练。但是,用户点击一个物品不一定是因为用户喜欢这个物品,也可能是因为物品的外观很吸引人,但是内容很差。这种现象称为Clickbait Issue——引诱点击问题。

  • 例如,在视频推荐场景下,用户点击一个视频,可能只是因为视频的封面和标题做的很好,但点进去可能并不喜欢看。
  • 在文章/新闻推荐场景下也是如此,很多标题党文章可以获得很多点击,但用户对这种文章是深恶痛绝的。

Clickbait Issue会导致用户对推荐系统的信任度下降,也会导致低质量的标题党信息在系统中泛滥,产生劣币驱逐良币的效果和马太效应。

因此,设计和训练推荐模型时,不能只追求点击率优化,而应该追求更高的用户满意度,避免陷入“推荐标题党内容-标题党获得更多点击-推荐更多标题党内容”的恶性循环中。

2. 研究目标

利用物品的外观信息和内容信息,区分用户的点击是因为被标题/封面吸引,还是真的喜欢物品的内涵。

3. 方法

3.1 符号和概念

数据集包含历史点击数据\(\bar{\mathcal{D}}=\left\{\left(u, i, \bar{Y}_{u, i}\right) \mid u \in \mathcal{U}, i \in \mathcal{I}\right\}\),其中\(\bar{Y}_{u, i} \in \{0,1\}\),分别表示没有/有点击交互。物品特征包括暴露信息(Exposure features)和内容信息(Content features),\(i = (e,t)\),暴露信息(e)在用户点击之前就能看到,比如标题和封面图;内容信息(t)在点击之后才能看到,例如文章内容、视频内容或物品详情等。

推荐模型预测结果\(Y_{u,i} = s_{\theta}(u,i) \in [0,1]\),优化目标为:

\[\begin{align}
\bar{\theta}=\underset{\theta}{\arg \min } \sum_{\left(u, i, \bar{Y}_{u, i}\right) \in \overline{\mathcal{D}}} l\left(s_{\theta}(u, i), \bar{Y}_{u, i}\right)
\end{align}
\]

Clickbait Issue:如果推荐系统给出的推荐列表中,把标题很吸引人,但是内容很差的物品\(i\)排在标题不太吸引人,但是内容比较好的物品\(j\)之前,则认为发生了Clickbait Issue。

\[\begin{align}
s_{\bar{\theta}}\left(u, i=\left(e_{i}, t_{i}\right)\right)>s_{\bar{\theta}}\left(u, j=\left(e_{j}, t_{j}\right)\right)
\end{align}
\]

Causal effect:因果效应分解,参见【因果推断】中介因果效应分解 汇总与理解(为了读懂这个分解方法,花了很多时间来研究,才写成此文)

  • 总体因果效应:包含直接路径和间接路径的因果效应。
  • 直接因果效应:通过直接路径产生的因果效应。
  • 间接因果效应:通过中介节点产生的因果效应。

3.2 因果推荐模型

如图3(a),在传统的基于特征的推荐模型中,会将物品特征(E, T)都作为输入,通过MLP等模型,得到item的表示(I)。

但是用户可能只是被标题等信息吸引而点击一个物品,因此,本文提出,建模曝光特征(E)对点击(Y)的直接因果效应,如图3(b)。

Mitigating Clickbait Issue

  • 为了解决推荐结果的Clickbait Issue,需要将\(E\rightarrow Y\)这条路径的影响去掉。我们希望去除的是E对Y自然直接效应,保留E对Y的自然间接效应和交互效应,即保留总体间接效应TIE,因此,不能直接对这条路径做干预,否则就会去除掉总体直接效应,只剩自然间接效应NIE:
\[\begin{align}
Y_{u,i,e^*} - Y_{u,i^*,e^*} = NIE
\end{align}
\]

本文希望得到的总体间接效应:

\[\begin{align}
TIE = Y_{u,i,e}-Y_{u,i^*,e}
\end{align}
\]
  • 具体请参考博文【论文笔记】Direct and Indirect Effects【因果推断】中介因果效应分解 汇总与理解
  • 从因果图的角度来理解,\(Y_{u, i, e}\)和\(Y_{u, i^*, e}\)的因果图中,\(E \rightarrow Y\)这条边是一样的(都是e),因此\(E \rightarrow Y\)的直接影响可以被减掉,还剩下\(I \rightarrow Y\)的影响。
  • 直观理解,如果一个物品是靠标题党来吸引流量的,则这个物品在反事实世界中的点击率(\(Y_{u, i^*, e}\))会很高,从而在反事实推荐模型中被排到后面去。

3.3 模型设计

在因果图中,影响点击概率Y的变量有三个(e,u,i),本文分别建立了u-e模型和u-i模型,分别捕捉物品曝光特征和总体特征对用户点击概率的影响:

\[\begin{align}
Y_{u, i, e}=f_{Y}(U=u, I=i, E=e)=f\left(Y_{u, i}, Y_{u, e}\right)=Y_{u, i} * \sigma\left(Y_{u, e}\right)
\end{align}
\]

模型训练:

\[\begin{align}
\mathcal{L}=\sum_{\left(u, i, \bar{Y}_{u, i}\right) \in \overline{\mathcal{D}}} l\left(Y_{u, i, e}, \bar{Y}_{u, i}\right)+\alpha * l\left(Y_{u, e}, \bar{Y}_{u, i}\right)
\end{align}
\]

模型预测:

\[\begin{align}
Y_{C R}=Y_{u, i, e}-Y_{u, i^{*}, e}=Y_{u, i, e}-f\left(c_{u}, Y_{u, e}\right)=Y_{u, i, e}-c_{u} * \sigma\left(Y_{u, e}\right)
\end{align}
\]

\(c_u\)是用户u对所有物品特征的平均兴趣:

\[\begin{align}
c_{u}=E\left(Y_{u, I}\right)=\frac{1}{|\mathcal{I}|} \sum_{i \in I} Y_{u, i}
\end{align}
\]

4. 实验

4.1 实验结果

使用了两个有物品特征和用户反馈的数据集,统计信息见下表:

\[\begin{aligned}
&\text { Table 1: Statistics of two datasets. }\\
&\begin{array}{l|c|c|c|c}
\hline \text { Dataset } & \text { #Users } & \text { #Items } & \text { #Clicks } & \text { #Likes } \\
\hline \text { Tiktok } & 18,855 & 34,756 & 1,493,532 & 589,008 \\
\hline \text { Adressa } & 31,123 & 4,895 & 1,437,540 & 998,612 \\
\hline
\end{array}
\end{aligned}
\]

对于每个用户,将正样本按8:1:1的比例随机划分训练集、验证集和测试集,其中测试集中只包含用户给出正反馈的物品。

baseline:

  • NT:(Normal Training)使用正常的训练数据,即使用曝光特征+内容特征作为模型输入,使用点击数据(而不是只使用正反馈数据)作为正样本参与训练。
  • CFT:(Content Feature Training)只使用内容特征来训练模型,同样使用点击数据作为正样本参与训练。
  • IPW:训练阶段使用Inverse Propensity Score的方法来做debias[27,28]。

以下三个baseline是利用了用户反馈数据的:

  • CT:(Clean Training)只使用正反馈数据作为正样本来训练。
  • NR:(Negative feedback Re-weighting)将点击但不喜欢的样本,与未点击的样本一起作为负样本进行训练。
  • RR:(Re-Rank)在NT的基础上,对每个用户前20的推荐物品,结合物品的点赞率进行重排序。

实验表明,本文提出的方法CR(Counterfactual Recommendation)的性能高于所有baseline。

4.2 性能比较

  • CFT性能比NT要差,说明简单地去除曝光特征是不行的。IPW性能也很差,这可能与本文的设定下,propensity score很难估计有关。
  • CR的性能高于NT,说明利用用户反馈数据的有效性,更能捕捉用户对内容的兴趣。但CT和NR的性能比较差,这可能是因为直接抛弃用户点击但未给出正反馈的那些数据,会使得数据量大大减少。

一些想法

  • 有些物品可能难以收集或者定义曝光特征,此时就无法应用此方法
  • 本文的模型设计是比较反直觉的,不是直接在预测时把包含e的项去掉,而是减去一项\(c_{u} * \sigma\left(Y_{u, e}\right)\)。这也是因果推断理论的作用——给出不怎么符合直觉但是更合理更有效的模型设计方法。
  • 这是2021年的最后一个晚上发表的今年最后一篇随笔,2021年我发生了很大的变化,希望在即将到来的2022年,能尽快达到自己满意的学术水平,顺利开启博士生涯,抓紧在校园的时光,努力学本领。希望明年能发表100篇以上的博客,读500篇以上的论文,加油加油!

进一步阅读

[45] Tyler J VanderWeele. 2013. A three-way decomposition of a total effect into direct, indirect, and interactive effects. Epidemiology (Cambridge, Mass.) 24, 2 (2013), 224

[30] Dugang Liu, Pengxiang Cheng, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming. 2020. A General Knowledge Distillation Framework for Counterfactual Recommendation via Uniform Data. In SIGIR. ACM, 831–840

[35] Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, and JiRong Wen. 2020. Counterfactual VQA: A Cause-Effect Look at Language Bias. In arXiv:2006.04315

[37] Judea Pearl. 2001. Direct and indirect effects. In UAI. Morgan Kaufmann Publishers Inc, 411–420.

[43] Kaihua Tang, Jianqiang Huang, and Hanwang Zhang. 2020. Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect. In NeurIPS.

[44] Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi, and Hanwang Zhang. 2020. Unbiased scene graph generation from biased training. In arXiv:2002.11949

[27] Dawen Liang, Laurent Charlin, and David M Blei. 2016. Causal inference for recommendation. In UAI. AUAI.

[28] Dawen Liang, Laurent Charlin, James McInerney, and David M Blei. 2016. Modeling user exposure in recommendation. In WWW. ACM, 951–961

[32] Hongyu Lu, Min Zhang, and Shaoping Ma. 2018. Between Clicks and Satisfaction: Study on Multi-Phase User Preferences and Satisfaction for Online News Reading. In SIGIR. ACM, 435–444.

[52] Hong Wen, Jing Zhang, Yuan Wang, Fuyu Lv, Wentian Bao, Quan Lin, and Keping Yang. 2020. Entire space multi-task modeling via post-click behavior decomposition for conversion rate prediction. In SIGIR. ACM, 2377–2386

【论文笔记】用反事实推断方法缓解标题党内容对推荐系统的影响 Click can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issue的更多相关文章

  1. IE6789浏览器使用console.log类似的方法输出调试内容但又不影响页面正常运行

    问题来源:外网IE下,触发js报错.经检测,未清除console造成.清除console后,解决. 问题原因:console.log 原先是 Firefox 的“专利”,严格说是安装了 Firebug ...

  2. Multimodal —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型

    看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...

  3. 论文笔记(2):A fast learning algorithm for deep belief nets.

    论文笔记(2):A fast learning algorithm for deep belief nets. 这几天继续学习一篇论文,Hinton的A Fast Learning Algorithm ...

  4. 【论文笔记】SamWalker: Social Recommendation with Informative Sampling Strategy

    SamWalker: Social Recommendation with Informative Sampling Strategy Authors: Jiawei Chen, Can Wang, ...

  5. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

  6. Video Frame Synthesis using Deep Voxel Flow 论文笔记

    Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv 摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索. ...

  7. 论文笔记:语音情感识别(三)手工特征+CRNN

    一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...

  8. 论文笔记:CNN经典结构1(AlexNet,ZFNet,OverFeat,VGG,GoogleNet,ResNet)

    前言 本文主要介绍2012-2015年的一些经典CNN结构,从AlexNet,ZFNet,OverFeat到VGG,GoogleNetv1-v4,ResNetv1-v2. 在论文笔记:CNN经典结构2 ...

  9. 论文笔记: Deep Learning based Recommender System: A Survey and New Perspectives

    (聊两句,突然记起来以前一个学长说的看论文要能够把论文的亮点挖掘出来,合理的进行概括23333) 传统的推荐系统方法获取的user-item关系并不能获取其中非线性以及非平凡的信息,获取非线性以及非平 ...

随机推荐

  1. tomcat启动和停止脚本

    #!/bin/bash JDK_HOME=/apps/jdk1.7.0_79 CATALINA_HOME=/apps/tomcat export JDK_HOME CATALINA_HOME sour ...

  2. mybatis缓存+aop出现的问题

    在对某些特殊数据进行转换时,getOne方法后执行fieleInfoHandle进行转换,如果直接使用fixedTableData进行操作,没有后续的二次调用这样是没问题的,但是在后面当执行完upda ...

  3. @RequestBody配合@Valid 校验入参参数

    自定义一个Controller import com.example.demo.pojo.User; import org.springframework.web.bind.annotation.Po ...

  4. What all is inherited from parent class in C++?

    派生类可以从基类中继承: (1)基类中定义的每个数据成员(尽管这些数据成员在派生类中不一定可以被访问): (2)基类中的每个普通成员函数(尽管这些成员函数在派生类中不一定可以被访问): (3)The ...

  5. Linux基础命令---uptime

    uptime uptime指令用来显示系统运行多长时间.有多少用户登录.系统负载情况. 此命令的适用范围:RedHat.RHEL.Ubuntu.CentOS.Fedora.SUSE.openSUSE. ...

  6. Servlet(1):Servlet介绍

    一. Servlet介绍 Servlet 是Java Servlet的简称,称为小服务程序或服务连接器,用Java编写的服务器端程序,具有独立于平台和协议的特性,主要功能在于交互式地浏览和生成数据,生 ...

  7. hooks中,useEffect无限调用问题产生的原因

    前言:我在我的另一篇博客中有说道useEffect监听对象或者数组时会导致useEffect无限执行,并给予了解决方案-useEffect无限调用问题 .后来我想从其产生根源去理解并解决这个问题. 原 ...

  8. ORALE 误删表 Flashback 恢复表

    昨天因为种种原因误删了很多表(160多个),一下炸了锅. 我知道影响很大,第一时间想到使用 Flashback 恢复过来.Flashback 听过很久,但是没真正上手过,恢复之后发现使用起来也很简单. ...

  9. CF981B Businessmen Problems 题解

    Content 有一个长度为 \(n\) 的序列和长度为 \(m\) 的序列,两个序列中的元素都有一个编号 \(num\) 和一个值 \(val\),且同一个序列的元素之间的编号互不相同.现在从这两个 ...

  10. AT3589 Similar Arrays 题解

    Content 给定一个长度为 \(n\) 的序列 \(a\).定义两个序列 \(x,y\) 是相似的,当且仅当 \(\forall i\in[1,n],|x_i-y_i|\leqslant 1\). ...