本文基于<Spark 高级数据分析>第3章 用音乐推荐和Audioscrobbler数据 完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c3/recommend 1.获取数据集 本 章 示 例 使 用 Audioscrobbler 公 开 发 布 的 一 个 数 据 集. Audioscrobbler 是 last.fm 的 第一个音乐推荐系统. last.fm 创建于 2002 年,是最早的互联网流媒体广播站点之一.…
1. Audioscrobbler数据集 数据下载地址: http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz Audioscrobbler 数据集只记录了播放数据,如“Bob 播放了一首Prince 的歌曲”.播放记录所包含的信息比评分要少.仅凭Bob 播放过某一首歌这一信息并不能说明他真的喜欢这首歌. 虽然人们经常听音乐,但却很少给音乐评分.因此Audiocrobbler 数据集要大得多.它覆盖了更…
偏好是无法度量的. 相比其他的机器学习算法,推荐引擎的输出更直观,更容易理解. 接下来三章主要讲述Spark中主要的机器学习算法.其中一章围绕推荐引擎展开,主要介绍音乐推荐.在随后的章节中我们先介绍Spark和MLib的实际应用,接着介绍一些机器学习的基本思想. 3.1 数据集 用户和艺术家的关系是通过其他行动隐含提现出来的,例如播放歌曲或专辑,而不是通过显式的评分或者点赞得到的.这被称为隐式反馈数据.现在的家用电视点播也是这样,用户一般不会主动评分. 数据集在http://www-etud.i…
本篇文章的开头笔者提出一个疑问,何为数据科学,数据科学是做什么的?大家带着这个疑问去读接下来的这篇音乐推荐的公众号. 从经验上讲,推荐引擎属于大规模机器学习,在日常购物中大家或许深有体会,比如:你在淘宝上浏览了一些商品,或者购买了一些商品,那么淘宝就会根据你的偏好给你推荐一些其他类似的商品.然而,相比较其他机器学习算法,推荐引擎的输出更加的直观,有时候的推荐效果让人吃惊.作为机器学习开篇文章,本篇文章会系统的介绍基于Audioscrobbler数据集的音乐推荐. 数据集介绍 Audioscrob…
本文参考http://blog.csdn.net/zdy0_2004/article/details/43896015译文以及原文file:///F:/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/Recommending%20music%20on%20Spotify%20with%20deep%20learning%20%E2%80%93%20Sander%20Dieleman.html 本文是比利时根特大学(Ghent University)的Reservoir …
Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大提高处理速度,特别是复杂的迭代计算.Spark主要包括SparkSQL,SparkStreaming,Spark MLLib以及图计算. Spark核心概念简介 1.RDD即弹性分布式数据集,通过RDD可以执行各种算子实现数据处理和计算.比如用Spark做统计词频,即拿到一串文字进行WordCount,可以把这个文字数据load到RDD之后,调用map.reducebyKey 算子,最后执行count动作触发…
1.前言 上接 YFCC 100M数据集分析笔记 和 使用百度地图api可视化聚类结果, 在对 YFCC 100M 聚类出的景点信息的基础上,使用 Spark MLlib 提供的 ALS 算法构建推荐模型. 本节代码可见:https://github.com/libaoquan95/TRS/tree/master/Analyse/recommend 数据信息:https://github.com/libaoquan95/TRS/tree/master/Analyse/dataset 2.数据预处…
推荐数据集MovieLens及评测 数据集简介 MoiveLens是GroupLens Research收集并发布的关于电影评分的数据集,规模也比较大,为了让我们的实验快速有效的进行,我们选取了发布于2003年2月的 MovieLens 1M,这个数据集包含6000个用户对4000个电影的一百万个评分.这个数据集经常用来做推荐系统,机器学习算法的测试数据集.尤其在推荐系统领域,很多著名论文都是基于这个数据集的.数据集下载地址. 数据集格式 评分数据 在rating.dat文件当中,里面主要保存了…
http://www.infoq.com/cn/news/2014/12/mongdb-spark-movie-recommend MovieWeb是一个电影相关的网站,它提供的功能包括搜索电影信息.排名或者电影明星资料等.它拥有10000部电影的信息,70000个用户,和超过1千万的电影评分.借用它的搜索目录,用户可以通过类型分类.排名和片名浏览等方式检索电影.但如何解决电影智能推荐的问题呢?近日MongoDB分享了他们结合Hadoop的经验. MovieWeb基于Python.在构建电影推荐…
性能调优相关的原理讲解.经验总结: 掌握一整套Spark企业级性能调优解决方案:而不只是简单的一些性能调优技巧. 针对写好的spark作业,实施一整套数据倾斜解决方案:实际经验中积累的数据倾斜现象的表现,以及处理后的效果总结. 调优前首先要对spark的作业流程清楚: Driver到Executor的结构: Master: Driver |-- Worker: Executor |-- job |-- stage |-- Task Task 一个Stage内,最终的RDD有多少个partitio…