推荐系统(1)--splitting approaches for context-aware recommendation
开篇语:
大一的时候。在实验室老师和师兄的带领下。我開始接触推荐系统。时光匆匆,转眼已是大三,因为大三课甚是少。于是便有了时间将自己所学的东西做下总结。
第一篇博客。献给过去三年里带我飞的老师和师兄们,感谢你们的无私帮助与教导!
协同过滤算法:
在传统的协同过滤算法中,算法是基于如图一的用户评分矩阵对用户进行推荐的。其核心思想大致是利用相似用户或者相似商品的信息对用户进行推荐,拿图一举例。在这里我们要预測小红对《了不起的盖茨比》这部电影的评分是多少(1-5),一个最简单的想法就是从全部用户中找到跟小红的品味相似的人。一眼望过去,小明跟小红的品味最相近(都是小李子的粉丝?都比較喜欢看煽情一点的电影?)。所以我们能够预測小红对《了不起的盖兹比》这部电影的评分应该是比較高的,所以在做电影推荐的时候,我们能够把《了不起的盖茨比》这部电影推荐给小红。这样的利用相似用户的信息进行推荐的算法叫做user-based(基于用户的)协同过滤算法,这样的而相相应的。就有item-based(基于商品的)协同过滤算法,基于商品协同过滤算法思想大致是。那些跟用户喜欢的商品相似的商品,在某种程度上说用户也应该喜欢,放在这里的话。小红喜欢《泰坦尼克号》这部电影,因为《泰坦尼克号》跟《了不起的盖茨比》比較相似,那么小红也理所当然地喜欢《了不起的盖茨比》这部电影。有关协同过滤算法,这篇博客进行了具体的介绍。
为了引出下文,这里插个没啥剧情没啥品味的小故事:
Splitting:
splitting的分类:
splitting方法分为item-splitting。user-splitting,UI-splitting三种。
splitting的基本思想:
对于某个事物X。假设它随着环境(上下文)的改变。X也发生非常大的变化,则应该觉得X在不同的环境(上下文)中是属于不同的事物,因此我们应该把它们切割开来。当成不同的事物对待。
splitting的做法:
这里以item-splitting来举例说明,item-splitting嘛,翻译成中文就是“项目-切割”。字面意思就是对一个项目(商品)进行切割,将其切割成几份,既然要切割。我们要拿什么来切割?怎么切割?切割成几份?
切割???~~~
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" width="400" height="200" alt="" style="white-space:pre; font-size:14px; line-height:21px; widows:auto">
言归正传,先来看第一个和第二个问题。拿什么来切割,怎么切割?看回前面的小故事,我们会非常自然而然地想到。这时候我们会用到上下文的信息来对item进行切割。在这里,我们看图二和图三中的两个矩阵:
(图二)
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" width="650" height="171" alt="" style="white-space:pre; font-size:14px; line-height:21px; widows:auto; text-align:center">(图三)
图三是用户对泰坦尼克号的评分,而图二是用户在看这部电影时的一些上下文信息,item-splitting方法的思想是利用某个上下文条件对项目尝试进行切割,尝试切割成两个向量后,如果这两个向量有显著地不同。则应该把原来这个项目进行切割,如果上面的上下文条件中。“是否跟恋人”这个上下文条件能够让泰坦尼克号这个列向量在切割之后有显著地不同,则应该将其划分为两个向量,如图四:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" width="650" height="175" alt="" style="font-size:14px; line-height:21px; widows:auto; white-space:pre; text-align:center">(图四)
在图四中,根据“是否跟恋人”这个上下文条件对《泰坦尼克号》这个列向量进行切割后,形成了两个不同的向量(跟恋人,不跟恋人),在item-splitting方法中。相应的事实上是两个不同的电影。
在这里,引入一个新的问题,怎样推断一个向量在切割成两个向量之后。这两个向量有显著的不同,即怎样评判泰坦尼克号(跟恋人)和泰坦尼克号(不跟恋人)这两个列向量有显著的不同?
论文[1]中具体地解说了splitting的整个过程。在这里摘取当中一个评判两个向量是否有显著不同的公式:
(图五)
该公式是两个样本的t检验。在p值满足阈值(一般是p<=0.05满足)的情况下,t值越大,这两个向量越不同,当中,Ui是该电影的平均分,Si为该电影的评分方差。ni为该电影有多少个非零值,下标C和非C表示不同的上下文(跟恋人和不跟恋人)。
item-splitting的算法伪代码(摘自论文[1])如图六所看到的:
(图六)
将图一的矩阵在运行item-splitting后。如果除了《了不起的盖茨比》外,其它两部电影都被splitting了,则将会变成如图七的矩阵:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" width="750" height="210" alt="" style="white-space:pre; font-size:14px; line-height:21px; widows:auto; text-align:center">(图七)
利用上下文信息得到如图七的矩阵后。能够在该矩阵上套用传统的协同过滤算法。
最后看一下上面说到的切割成几份的问题,在上述过程中,对于每一个item,我们都是划分成2份,即是这个上下文的和不是这个上下文的,那么。我们能够将其划分成很多其它份吗?比方对于图二中的天气这一个上下文维度,对每一个项目划分成4份,即晴,下雨,阴天。下雪这四个。能够是能够,但论文[1]有提到这样划分不仅会带来时间成本的添加。也会导致评分矩阵过度稀疏,也会造成过拟合的问题。
splitting方法的优缺点及思考:
首先说下长处,splitting方法能够把有价值的上下文信息融入到传统的协同过滤算法中。从而提升推荐的效果。
再来说下缺点,从上面的伪代码来分析。我们能够知道,在上下文的维度非常高。且每一个维度有非常多值的情况下,整个splitting过程是十分耗时的,并且splitting耗费的这些时间不一定能非常大幅度的提升推荐的效果,注意我上面说splitting的长处的时候, 有特别地说明“有价值的上下文信息”,可是。什么上下文信息是有价值的呢?这又与业务背景有关,有人专门对上下文的选取做过研究。发现并非全部的上下文信息都能提升推荐的效果的。有时候引入不恰当的上下文,反而会减少推荐的效果,因此,对于splitting过程中要用什么上下文才干提升推荐效果。这也须要我们对业务背景有一定的了解。
在这里推荐一个github上的有关上下文推荐系统相当不错的项目:
https://github.com/irecsys/CARSKit
參考学习资料:
[1]L. Baltrunas and F. Ricci. Experimental evaluation of context-dependent collaborative filtering using item splitting.2013.
[2]Yong Zheng,Robin Burke,Bamshad Mobasher.Splitting Approaches for Context-Aware Recommendation: An Empirical Study.2014
推荐系统(1)--splitting approaches for context-aware recommendation的更多相关文章
- 【论文笔记】基于图机构的推荐系统:Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba
论文:https://arxiv.org/abs/1803.02349 题外话: 阿里和香港理工联合发布的这篇文章,整体来说,还挺有意思的. 刚开始随便翻翻看看结构图的时候,会觉得:这也能发文章 ...
- 转:Recsys2013论文导读
月中在香港参加recsys2013会议,文章不少,对我有价值的并不算多,再跟目前工作相关的就更少了.这里过滤了几篇我觉得比较有意思的文章,加上了自己的理解,作为导读. A Fast Parallel ...
- Use of Deep Learning in Modern Recommendation System: A Summary of Recent Works(笔记)
注意:论文中,很多的地方出现baseline,可以理解为参照物的意思,但是在论文中,我们还是直接将它称之为基线,也 就是对照物,参照物. 这片论文中,作者没有去做实际的实验,但是却做了一件很有意义的事 ...
- Awesome Go
A curated list of awesome Go frameworks, libraries and software. Inspired by awesome-python. Contrib ...
- Go 语言相关的优秀框架,库及软件列表
If you see a package or project here that is no longer maintained or is not a good fit, please submi ...
- Awesome Go (http://awesome-go.com/)
A curated list of awesome Go frameworks, libraries and software. Inspired by awesome-python. Contrib ...
- Awesome Go精选的Go框架,库和软件的精选清单.A curated list of awesome Go frameworks, libraries and software
Awesome Go financial support to Awesome Go A curated list of awesome Go frameworks, libraries a ...
- PAMI 2010 Context-aware saliency detection
This is a highly-cited paper. The context aware saliency proposed based on four principles, which ca ...
- How does Spring @Transactional Really Work?--转
原文地址:http://blog.jhades.org/how-does-spring-transactional-really-work/ In this post we will do a dee ...
随机推荐
- spring boot jar的生成
1)准备demo 2)打开idea项目结构 3)添加 4)按顺序 6)bulid 7)完成 查看out文件
- TWaver3D直线、曲线、曲面的绘制
插播一则广告(长期有效) TWaver需要在武汉招JavaScript工程师若干 要求:对前端技术(JavasScript.HTML.CSS),对可视化技术(Canvas.WebGL)有浓厚的兴趣 基 ...
- 关于python字符串拼接的几种方法
当时看完python的基本语法后 给朋友写了个美元概率换算 写完后拼接结果时候 发现压根不知道python怎么拼接字符串 看了些资料自己做了个总结 首先就是和JavaScript一样的拼接方式 nam ...
- centos7.x设置静态IP
本教程以centOs7.4为例: 1.点击虚拟机的[编辑]选项,选择[虚拟网络编辑器] 2.选择[VMnet8],然后点击[NAT设置] 3.记录[子网掩码]和[网关IP],后面会用到 4.进入终端, ...
- VMware Workstation 14 UEFI启动
1.新建虚拟机 完成后不要启动 修改虚拟机目录下的XXX.vmx文件 添加一行:firmware="efi" 然后启动UEFI安装系统.
- MVC常见框架
Struts Struts是Apache软件基金下Jakarta项目的一部分.Struts框架的主要架构设计和开发者是Craig R.McClanahan.Struts 是Java Web MVC框架 ...
- Python进阶之网络编程
网络通信 使用网络的目的 把多方链接在一起,进行数据传递: 网络编程就是,让不同电脑上的软件进行数据传递,即进程间通信: ip地址 ip地址概念和作用 IP地址是什么:比如192.168.1.1 这样 ...
- iframe的操作switch_to_frame使用方法.
一.frame和iframe区别 Frame与Iframe两者可以实现的功能基本相同,不过Iframe比Frame具有更多的灵活性. frame是整个页面的框架,iframe是内嵌的网页元素,也可以说 ...
- 南宁2017ICPC总结
南宁2017ICPC总结 第二次到南宁,高铁三个半小时好像没什么感觉了,广西的天气真的是又湿又冷,而且交通也及其不方面,所以对广西的印象也不是很好.这次承 ...
- 可以从CSS框架中借鉴到什么
http://isux.tencent.com/css-framework.html http://isux.tencent.com/css-framework.html 现在很多人会使用 CSS 框 ...