推荐系统(1)--splitting approaches for context-aware recommendation
开篇语:
大一的时候。在实验室老师和师兄的带领下。我開始接触推荐系统。时光匆匆,转眼已是大三,因为大三课甚是少。于是便有了时间将自己所学的东西做下总结。
第一篇博客。献给过去三年里带我飞的老师和师兄们,感谢你们的无私帮助与教导!
协同过滤算法:
在传统的协同过滤算法中,算法是基于如图一的用户评分矩阵对用户进行推荐的。其核心思想大致是利用相似用户或者相似商品的信息对用户进行推荐,拿图一举例。在这里我们要预測小红对《了不起的盖茨比》这部电影的评分是多少(1-5),一个最简单的想法就是从全部用户中找到跟小红的品味相似的人。一眼望过去,小明跟小红的品味最相近(都是小李子的粉丝?都比較喜欢看煽情一点的电影?)。所以我们能够预測小红对《了不起的盖兹比》这部电影的评分应该是比較高的,所以在做电影推荐的时候,我们能够把《了不起的盖茨比》这部电影推荐给小红。这样的利用相似用户的信息进行推荐的算法叫做user-based(基于用户的)协同过滤算法,这样的而相相应的。就有item-based(基于商品的)协同过滤算法,基于商品协同过滤算法思想大致是。那些跟用户喜欢的商品相似的商品,在某种程度上说用户也应该喜欢,放在这里的话。小红喜欢《泰坦尼克号》这部电影,因为《泰坦尼克号》跟《了不起的盖茨比》比較相似,那么小红也理所当然地喜欢《了不起的盖茨比》这部电影。有关协同过滤算法,这篇博客进行了具体的介绍。
为了引出下文,这里插个没啥剧情没啥品味的小故事:
Splitting:
splitting的分类:
splitting方法分为item-splitting。user-splitting,UI-splitting三种。
splitting的基本思想:
对于某个事物X。假设它随着环境(上下文)的改变。X也发生非常大的变化,则应该觉得X在不同的环境(上下文)中是属于不同的事物,因此我们应该把它们切割开来。当成不同的事物对待。
splitting的做法:
这里以item-splitting来举例说明,item-splitting嘛,翻译成中文就是“项目-切割”。字面意思就是对一个项目(商品)进行切割,将其切割成几份,既然要切割。我们要拿什么来切割?怎么切割?切割成几份?
切割???~~~
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" width="400" height="200" alt="" style="white-space:pre; font-size:14px; line-height:21px; widows:auto">
言归正传,先来看第一个和第二个问题。拿什么来切割,怎么切割?看回前面的小故事,我们会非常自然而然地想到。这时候我们会用到上下文的信息来对item进行切割。在这里,我们看图二和图三中的两个矩阵:
(图二)
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" width="650" height="171" alt="" style="white-space:pre; font-size:14px; line-height:21px; widows:auto; text-align:center">(图三)
图三是用户对泰坦尼克号的评分,而图二是用户在看这部电影时的一些上下文信息,item-splitting方法的思想是利用某个上下文条件对项目尝试进行切割,尝试切割成两个向量后,如果这两个向量有显著地不同。则应该把原来这个项目进行切割,如果上面的上下文条件中。“是否跟恋人”这个上下文条件能够让泰坦尼克号这个列向量在切割之后有显著地不同,则应该将其划分为两个向量,如图四:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" width="650" height="175" alt="" style="font-size:14px; line-height:21px; widows:auto; white-space:pre; text-align:center">(图四)
在图四中,根据“是否跟恋人”这个上下文条件对《泰坦尼克号》这个列向量进行切割后,形成了两个不同的向量(跟恋人,不跟恋人),在item-splitting方法中。相应的事实上是两个不同的电影。
在这里,引入一个新的问题,怎样推断一个向量在切割成两个向量之后。这两个向量有显著的不同,即怎样评判泰坦尼克号(跟恋人)和泰坦尼克号(不跟恋人)这两个列向量有显著的不同?
论文[1]中具体地解说了splitting的整个过程。在这里摘取当中一个评判两个向量是否有显著不同的公式:
(图五)
该公式是两个样本的t检验。在p值满足阈值(一般是p<=0.05满足)的情况下,t值越大,这两个向量越不同,当中,Ui是该电影的平均分,Si为该电影的评分方差。ni为该电影有多少个非零值,下标C和非C表示不同的上下文(跟恋人和不跟恋人)。
item-splitting的算法伪代码(摘自论文[1])如图六所看到的:
(图六)
将图一的矩阵在运行item-splitting后。如果除了《了不起的盖茨比》外,其它两部电影都被splitting了,则将会变成如图七的矩阵:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" width="750" height="210" alt="" style="white-space:pre; font-size:14px; line-height:21px; widows:auto; text-align:center">(图七)
利用上下文信息得到如图七的矩阵后。能够在该矩阵上套用传统的协同过滤算法。
最后看一下上面说到的切割成几份的问题,在上述过程中,对于每一个item,我们都是划分成2份,即是这个上下文的和不是这个上下文的,那么。我们能够将其划分成很多其它份吗?比方对于图二中的天气这一个上下文维度,对每一个项目划分成4份,即晴,下雨,阴天。下雪这四个。能够是能够,但论文[1]有提到这样划分不仅会带来时间成本的添加。也会导致评分矩阵过度稀疏,也会造成过拟合的问题。
splitting方法的优缺点及思考:
首先说下长处,splitting方法能够把有价值的上下文信息融入到传统的协同过滤算法中。从而提升推荐的效果。
再来说下缺点,从上面的伪代码来分析。我们能够知道,在上下文的维度非常高。且每一个维度有非常多值的情况下,整个splitting过程是十分耗时的,并且splitting耗费的这些时间不一定能非常大幅度的提升推荐的效果,注意我上面说splitting的长处的时候, 有特别地说明“有价值的上下文信息”,可是。什么上下文信息是有价值的呢?这又与业务背景有关,有人专门对上下文的选取做过研究。发现并非全部的上下文信息都能提升推荐的效果的。有时候引入不恰当的上下文,反而会减少推荐的效果,因此,对于splitting过程中要用什么上下文才干提升推荐效果。这也须要我们对业务背景有一定的了解。
在这里推荐一个github上的有关上下文推荐系统相当不错的项目:
https://github.com/irecsys/CARSKit
參考学习资料:
[1]L. Baltrunas and F. Ricci. Experimental evaluation of context-dependent collaborative filtering using item splitting.2013.
[2]Yong Zheng,Robin Burke,Bamshad Mobasher.Splitting Approaches for Context-Aware Recommendation: An Empirical Study.2014
推荐系统(1)--splitting approaches for context-aware recommendation的更多相关文章
- 【论文笔记】基于图机构的推荐系统:Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba
论文:https://arxiv.org/abs/1803.02349 题外话: 阿里和香港理工联合发布的这篇文章,整体来说,还挺有意思的. 刚开始随便翻翻看看结构图的时候,会觉得:这也能发文章 ...
- 转:Recsys2013论文导读
月中在香港参加recsys2013会议,文章不少,对我有价值的并不算多,再跟目前工作相关的就更少了.这里过滤了几篇我觉得比较有意思的文章,加上了自己的理解,作为导读. A Fast Parallel ...
- Use of Deep Learning in Modern Recommendation System: A Summary of Recent Works(笔记)
注意:论文中,很多的地方出现baseline,可以理解为参照物的意思,但是在论文中,我们还是直接将它称之为基线,也 就是对照物,参照物. 这片论文中,作者没有去做实际的实验,但是却做了一件很有意义的事 ...
- Awesome Go
A curated list of awesome Go frameworks, libraries and software. Inspired by awesome-python. Contrib ...
- Go 语言相关的优秀框架,库及软件列表
If you see a package or project here that is no longer maintained or is not a good fit, please submi ...
- Awesome Go (http://awesome-go.com/)
A curated list of awesome Go frameworks, libraries and software. Inspired by awesome-python. Contrib ...
- Awesome Go精选的Go框架,库和软件的精选清单.A curated list of awesome Go frameworks, libraries and software
Awesome Go financial support to Awesome Go A curated list of awesome Go frameworks, libraries a ...
- PAMI 2010 Context-aware saliency detection
This is a highly-cited paper. The context aware saliency proposed based on four principles, which ca ...
- How does Spring @Transactional Really Work?--转
原文地址:http://blog.jhades.org/how-does-spring-transactional-really-work/ In this post we will do a dee ...
随机推荐
- Visual Studio 安装VS10x CodeMAP
最近出差,用的是公司电脑,电脑安装的是Visual Studio 2017 VS10x CodeMap 支持Visual Studio 2010, 2012, 2013, 2015,不支持Visual ...
- Java笔记:编写第一个Java程序
2017.6.17 1.编写第一个Java程序 创建text文本,命名第一个Java程序.txt 在里面编写Java代码 public class Demo1{ public static void ...
- jQuery闪烁提示,让新消息在网页标题显示
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><html><head& ...
- luogu P3916 图的遍历
P3916 图的遍历 题目描述 给出 N 个点, M 条边的有向图,对于每个点 v ,求 A(v) 表示从点 v 出发,能到达的编号最大的点. 输入输出格式 输入格式: 第1 行,2 个整数 N,MN ...
- Python-接口自动化(十一)
配置文件的作用(十一) (十二)配置文件 1.python当中有一个模块可以读取配置文件里面的信息:configparser,对这个模块进行导入之后就可以使用了,import configparser ...
- ArrayList集合的遍历
ArrayLIstDemo3.java import java.util.ArrayList; public class ArrayListDemo3 { public static void mai ...
- jmeter-添加断言(检查点)-实例
方法/步骤 打开 jmeter的图形界面工具,然后打开之前保存的脚本(之前经验中用到的),demo-baidu.jmx 先点击运行,查看运行结果. 第一次请求返回302,然后跳转到第二次请 ...
- XV6操作系统接口
操作系统接口 操作系统的工作是(1)将计算机的资源在多个程序间共享,并且给程序提供一系列比硬件本身更有用的服务.(2)管理并抽象底层硬件,举例来说,一个文字处理软件(比如 word)不用去关心自己使用 ...
- OO第三次作业总结(JML)
第三单元的课题是JML, 即java建模语言.JML是一种描述接的语言.通过前置条件和后置条件,描述一个模块的行为.本单元我们扮演一个项目中的一员,完成自己的一小部分工作,最终实现整个项目.而限制我们 ...
- POJ 2115 C Looooops【数论】
很容易看出来一个同余式,说到底是解一个线性同余方程,计算机解通常有拓展欧几里得和欧拉定理两种算法,参照去年的NOIP水题,问题是这题数据范围是2^32所以要int64 TAT #include< ...