转:[大数据竞赛]协同过滤在这个问题上是否work
http://bbs.aliyun.com/read/154433.html?spm=5176.7189909.0.0.gzyohy&fpage=2
看到主办方之前发的一篇文章里提到,这个购买行为 和 传统的评分过滤问题 还是很不一样的。
但为什么亚马逊 会使用 item-cf等协同过滤算法呢?
这里用item-cf算法为什么会这么差?
难道亚马逊 和天猫上的购买行为 有差别?
协同过滤的关键是要知道用户的显性反馈,即评分。
这个数据集根本就没有给评分,即便是利用购买来做评分,利用binary rate来做,正负例比例失调,购买带来的信息太少。
其他行为作为隐形反馈很难合理的加进SVD++进去。
总体的来说,同样是购物网站,因为数据集的不同,模型好坏不一样。
关于为啥淘宝不用那个好评中评差评来做rate,上淘宝的人都知道,一个差评和中评的影响太大,就算不是很满意也不会打中评的。
个人见解。
因为目标不同。评价推荐算法好坏的指标很多,这次是以用户最终购买来衡量。CF只说明你对这个可能有兴趣,看过耐克,给你推荐阿迪、NB或者别的,当然是有兴趣点击的,但是最终会不会买?不知道。第一步是兴趣的转化,比如点击,比如收藏,这之后还有购买转化。如果只是把源数据处理完,用经典算法或者已有的Toolkit跑一遍,调调参数拿到好的结果,竞赛无论是过程或者结果的意义都没那么大了。
用户的行为差异很大,从哪里看出来?数据里反映出来。
协同过滤是推荐的思想,对应也产生了一些想法。推荐的话,一般你买过的就不会给你推荐了。
但是预测你是否购买,和推荐的问题有些区别的。比如你上个月买过某品牌的零食,你这个月可能还会买相同的东西。还是要对观察数据,看看哪些特征有助于你预测。
亚马逊是推荐你去购买,所以只要推荐的商品是你可能感兴趣的就行。而我们做的是要去预测用户是否会购买,这个问题就大了,用户即使感兴趣也不一定会购买,你可以想想:亚马逊给你推荐了那么多图书,你买了几本它推荐的呢?
转:[大数据竞赛]协同过滤在这个问题上是否work的更多相关文章
- Kaggle大数据竞赛平台入门
Kaggle大数据竞赛平台入门 大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kagg ...
- GitHub 干货 | 各大数据竞赛 Top 解决方案开源汇总
AI 科技评论编者按:现在,越来越多的企业.高校以及学术组织机构通过举办各种类型的数据竞赛来「物色」数据科学领域的优秀人才,并借此激励他们为某一数据领域或应用场景找到具有突破性意义的方案,也为之后的数 ...
- 阿里大数据竞赛season1 总结
关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是 ...
- 大数据竞赛平台——Kaggle 入门
Reference: http://blog.csdn.net/witnessai1/article/details/52612012 Kaggle是一个数据分析的竞赛平台,网址:https://ww ...
- 大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简 ...
- 大数据技术之_16_Scala学习_07_数据结构(上)-集合
第十章 数据结构(上)-集合10.1 数据结构特点10.1.1 Scala 集合基本介绍10.1.2 可变集合和不可变集合举例10.2 Scala 不可变集合继承层次一览图10.2.1 图10.2.2 ...
- 大数据竞赛平台Kaggle案例实战
Kaggle是由联合创始人.首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛.托管数据库.编写和分享代码的平台. ...
- 阿里大数据竞赛非官方指南第三弹-- LR入门
最近忙着赶global comm的deadline无暇比赛,当有功夫回过头来看的时候发现比赛已经夹杂了很多非技术的因素在里面了,就连我这个本来是写博客拉粉丝的也有点小不爽.本着我的初心是写博客拉粉丝, ...
- 大数据竞赛平台——Kaggle 入门(转)
先马克一下:http://blog.csdn.net/u012162613/article/details/41929171
随机推荐
- OpenJ_POJ C16B Robot Game 打表找规律
Robot Game 题目连接: http://acm.hust.edu.cn/vjudge/contest/122701#problem/B Description Sgeoghy has addi ...
- Kruskal 模板
最小生成树指的是在图上面找到权值最小的一棵树,并且保证图上所有的点都在这棵树上. 解决办法:Kruskal 算法(贪心思想) 将边按权值从小到大排序,然后按这个顺序不断连边,直到所有点联通. /** ...
- redis 写磁盘出错 Can’t save in background: fork: Cannot allocate memory (转)
查看 Redis 日志 发现系统在频繁报错: [26641] 18 Dec 04:02:14 * 1 changes in 900 seconds. Saving… [26641] 18 Dec 04 ...
- crontab计划执行脚本详解
Crontab是Linux系统中在固定时间执行某一个程序的工具,类似于Windows系统中的任务计划程序. 一.安装crontab yum install vixie-cron #安装 chkcon ...
- git 拉取和获取 pull 和 fetch 区别
使用Git 直接提交的话 直接 push 获取最新版本 有两种 拉取 和 获取 pull 和 fetch git pull 从远程拉取最新版本 到本地 自动合并 merge ...
- 【Go命令教程】3. go install
命令 go install 用于编译并安装指定的代码包及它们的依赖包.当指定的代码包的依赖包还没有被编译和安装时,该命令会先去处理依赖包.与 go build 命令一样,传给 go install 命 ...
- muduo 的 shutdown() 没有直接关闭 TCP 连接?
http://blog.csdn.net/Solstice/article/details/6208634 今天收到一位网友来信: 在 simple 中的 daytime 示例中,服务端主动关闭时调用 ...
- MTK65XX平台充电调试总结
MTK平台充电调试总结 摘要:调试电池的充放电管理,首先须要深入了解锂电池的电池原理和特点.充放电特性以及主要的电池安全问题.然后须要对MTK的电池管理驱动程序有深入的了解.理解电池充放电算法的基本原 ...
- MongoDB 安装 Windows XP
〇. 一个提供MonogoDB丰富资料的中文网站 http://www.cnblogs.com/hoojo/archive/2012/02/17/2355384.html 一. http://www ...
- lufylegend:图形变形1
HTML5中的几种变形 HTML5中的变形,共有以下几种方法 scale() 缩放 rotate() 旋转 translate() 平移 transform() 矩阵变形 setTransform() ...