转:[大数据竞赛]协同过滤在这个问题上是否work
http://bbs.aliyun.com/read/154433.html?spm=5176.7189909.0.0.gzyohy&fpage=2
看到主办方之前发的一篇文章里提到,这个购买行为 和 传统的评分过滤问题 还是很不一样的。
但为什么亚马逊 会使用 item-cf等协同过滤算法呢?
这里用item-cf算法为什么会这么差?
难道亚马逊 和天猫上的购买行为 有差别?
协同过滤的关键是要知道用户的显性反馈,即评分。
这个数据集根本就没有给评分,即便是利用购买来做评分,利用binary rate来做,正负例比例失调,购买带来的信息太少。
其他行为作为隐形反馈很难合理的加进SVD++进去。
总体的来说,同样是购物网站,因为数据集的不同,模型好坏不一样。
关于为啥淘宝不用那个好评中评差评来做rate,上淘宝的人都知道,一个差评和中评的影响太大,就算不是很满意也不会打中评的。
个人见解。
因为目标不同。评价推荐算法好坏的指标很多,这次是以用户最终购买来衡量。CF只说明你对这个可能有兴趣,看过耐克,给你推荐阿迪、NB或者别的,当然是有兴趣点击的,但是最终会不会买?不知道。第一步是兴趣的转化,比如点击,比如收藏,这之后还有购买转化。如果只是把源数据处理完,用经典算法或者已有的Toolkit跑一遍,调调参数拿到好的结果,竞赛无论是过程或者结果的意义都没那么大了。
用户的行为差异很大,从哪里看出来?数据里反映出来。
协同过滤是推荐的思想,对应也产生了一些想法。推荐的话,一般你买过的就不会给你推荐了。
但是预测你是否购买,和推荐的问题有些区别的。比如你上个月买过某品牌的零食,你这个月可能还会买相同的东西。还是要对观察数据,看看哪些特征有助于你预测。
亚马逊是推荐你去购买,所以只要推荐的商品是你可能感兴趣的就行。而我们做的是要去预测用户是否会购买,这个问题就大了,用户即使感兴趣也不一定会购买,你可以想想:亚马逊给你推荐了那么多图书,你买了几本它推荐的呢?
转:[大数据竞赛]协同过滤在这个问题上是否work的更多相关文章
- Kaggle大数据竞赛平台入门
Kaggle大数据竞赛平台入门 大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kagg ...
- GitHub 干货 | 各大数据竞赛 Top 解决方案开源汇总
AI 科技评论编者按:现在,越来越多的企业.高校以及学术组织机构通过举办各种类型的数据竞赛来「物色」数据科学领域的优秀人才,并借此激励他们为某一数据领域或应用场景找到具有突破性意义的方案,也为之后的数 ...
- 阿里大数据竞赛season1 总结
关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是 ...
- 大数据竞赛平台——Kaggle 入门
Reference: http://blog.csdn.net/witnessai1/article/details/52612012 Kaggle是一个数据分析的竞赛平台,网址:https://ww ...
- 大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本文分为两部分介绍Kaggle,第一部分简 ...
- 大数据技术之_16_Scala学习_07_数据结构(上)-集合
第十章 数据结构(上)-集合10.1 数据结构特点10.1.1 Scala 集合基本介绍10.1.2 可变集合和不可变集合举例10.2 Scala 不可变集合继承层次一览图10.2.1 图10.2.2 ...
- 大数据竞赛平台Kaggle案例实战
Kaggle是由联合创始人.首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛.托管数据库.编写和分享代码的平台. ...
- 阿里大数据竞赛非官方指南第三弹-- LR入门
最近忙着赶global comm的deadline无暇比赛,当有功夫回过头来看的时候发现比赛已经夹杂了很多非技术的因素在里面了,就连我这个本来是写博客拉粉丝的也有点小不爽.本着我的初心是写博客拉粉丝, ...
- 大数据竞赛平台——Kaggle 入门(转)
先马克一下:http://blog.csdn.net/u012162613/article/details/41929171
随机推荐
- Linux 网络流量实时监控工具之ntopng详解
大纲一.前言二.ntopng 简介三.ntopng 功能说明 四.ntopng 安装详解五.ntopng 配置详解 六.ntopng 使用详解注,操作系统 CentOS 5.5 X86_64,软件版本 ...
- [原创]Jmeter工具学习思维导图
[原创]Jmeter工具学习思维导图
- 在.net core 2.0中生成exe文件
.net core 2.0程序默认生成的是一个dll,需要通过dotnet命令来执行他. dotnet ConsoleApp1.dll 这种方式有点类似于java程序.本身这种方式没有什么问题,但在调 ...
- STM32F4, USB HS with ULPI and Suspend/Wakeup
Hi guys,I am in need of your help, unfortunately STs documentation is lacking some information here. ...
- C# WINFORM的自动更新程序
自动更新程序AutoUpdate.exe https://git.oschina.net/victor596jm/AutoUpdate.git 1.获取源码 http://git.oschina.ne ...
- Pylons安装苦逼之路
本文介绍一下我在安装pylons的过程中出现的一些错误和解决办法,当然这些都是不完全版. 1.在Serve1(服务器Python版本2.4.3)上面装环境的时候总是出现with_statement有关 ...
- 在Visual Studio中使用用例图描述系统与参与者间的关系
"用例图"用来描述谁用系统,用系统做什么.用例图不涉及使用细节,只用来描述使用人员和系统的关系,也不涉及行动的顺序.一起来体验. 使用Visual Studio 2012创建解决方 ...
- (转)Java中的守护线程
Java的守护线程与非守护线程 守护线程与非守护线程 最近在看多线程的Timer章节,发现运用到了守护线程,感觉Java的基础知识还是需要补充. Java分为两种线程:用户线程和守护线程 所谓守护 ...
- 树莓派2B安装Xware迅雷远程下载
转自:http://www.cnblogs.com/liangjh/articles/5347811.html 一.安装使用迅雷Xware (1)下载Xware1.0.31_armel_v5te_gl ...
- Python 网络请求模块 urllib 、requests
Python 给人的印象是抓取网页非常方便,提供这种生产力的,主要依靠的就是 urllib.requests这两个模块. urlib 介绍 urllib.request 提供了一个 urlopen 函 ...