Spark 实践——音乐推荐和 Audioscrobbler 数据集

本文基于《Spark 高级数据分析》第3章用音乐推荐和Audioscrobbler数据

完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c3/recommend

1.获取数据集

本章示例使用 Audioscrobbler 公开发布的一个数据集。 Audioscrobbler 是 last.fm 的第一个音乐推荐系统。 last.fm 创建于 2002 年，是最早的互联网流媒体广播站点之一。

Audioscrobbler 数据集有些特别，因为它只记录了播放数据，主要的数据集在文件 user_artist_data.txt 中，它包含 141 000 个用户和 160 万个艺术家，记录了约 2420 万条用户播放艺术家歌曲的信息，其中包括播放次

数信息。

数据集在 artist_data.txt 文件中给出了每个艺术家的 ID 和对应的名字。请注意，记录播放信息时，客户端应用提交的是艺术家的名字。名字如果有拼写错误，或使用了非标准的名称，事后才能被发现。比如，“The Smiths”“Smiths, The”和“the smiths”看似代表不同艺术家的 ID，但它们其实明显是指同一个艺术家。因此，为了将拼写错误的艺术家 ID 或ID 变体对应到该艺术家的规范 ID，数据集提供了 artist_alias.txt 文件。

下载地址：

http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html （原书地址，已失效）
https://github.com/libaoquan95/aasPractice/tree/master/c3/profiledata_06-May-2005（数据集大于git上传限制，分卷压缩）

2.数据处理

加载数据集

val dataDirBase = "profiledata_06-May-2005/"

val rawUserArtistData = sc.read.textFile(dataDirBase + "user_artist_data.txt")

val rawArtistData = sc.read.textFile(dataDirBase + "artist_data.txt")

val rawArtistAlias = sc.read.textFile(dataDirBase + "artist_alias.txt")

rawUserArtistData.show()

rawArtistData.show()

rawArtistAlias.show()

格式化数据集，转换成 DataFrame

val artistByID = rawArtistData.flatMap { line =>

  val (id, name) = line.span(_ != '\t')

  if (name.isEmpty()){

    None

  } else {

    try {

      Some((id.toInt, name.trim))

    } catch{

      case _: NumberFormatException => None

    }

  }

}.toDF("id", "name").cache()

val artistAlias = rawArtistAlias.flatMap { line =>

  var Array(artist, alias) = line.split('\t')

  if (artist.isEmpty()) {

    None

  } else {

    Some((artist.toInt, alias.toInt))

  }

}.collect().toMap

val bArtistAlias = sc.sparkContext.broadcast(artistAlias)

val userArtistDF = rawUserArtistData.map { line =>

  val Array(userId, artistID, count) = line.split(' ').map(_.toInt)

  val finalArtistID = bArtistAlias.value.getOrElse(artistID, artistID)

  (userId, artistID, count)

}.toDF("user", "artist", "count").cache()

查看 artist 别名与实名

val (badID, goodID) = artistAlias.head

artistByID.filter($"id" isin (badID, goodID)).show()

3.利用 Spark MLlib 进行推荐

Spark MLlib 使用 ALS (交替最小二乘) 来实现协同过滤算法，该模型只需传入三元组 (用户ID, 物品ID, 评分) 就可以进行计算，需要注意，用户ID 和物品ID必须是整型数据。

val Array(trainData, cvData) = userArtistDF.randomSplit(Array(0.9, 0.1))

val model = new ALS().

    setSeed(Random.nextLong()).

    setImplicitPrefs(true).

    setRank(10).

    setRegParam(0.01).

    setAlpha(1.0).

    setMaxIter(5).

    setUserCol("user").

    setItemCol("artist").

    setRatingCol("count").

    setPredictionCol("prediction").

    fit(trainData)

推荐模型已经搭建完成，不过 Spark MLlib 每次只能对单个用户进行推荐，无法进行单次的全局推荐。

val userId = 2093760

val topN = 10

val toRecommend = model.itemFactors.

  select($"id".as("artist")).

  withColumn("user", lit(userId))

val topRecommendations  = model.transform(toRecommend).

  select("artist", "prediction").

  orderBy($"prediction".desc).

  limit(topN)

// 查看推荐结果

val recommendedArtistIDs = topRecommendations.select("artist").as[Int].collect()

artistByID.join(sc.createDataset(recommendedArtistIDs).

  toDF("id"), "id").

  select("name").show()

Spark 实践——音乐推荐和 Audioscrobbler 数据集的更多相关文章

音乐推荐与Audioscrobbler数据集
1. Audioscrobbler数据集数据下载地址: http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar. ...
3-Spark高级数据分析-第三章音乐推荐和Audioscrobbler数据集
偏好是无法度量的. 相比其他的机器学习算法,推荐引擎的输出更直观,更容易理解. 接下来三章主要讲述Spark中主要的机器学习算法.其中一章围绕推荐引擎展开,主要介绍音乐推荐.在随后的章节中我们先介绍S ...
ALS音乐推荐（上）
本篇文章的开头笔者提出一个疑问,何为数据科学,数据科学是做什么的?大家带着这个疑问去读接下来的这篇音乐推荐的公众号. 从经验上讲,推荐引擎属于大规模机器学习,在日常购物中大家或许深有体会,比如:你在淘 ...
Recommending music on Spotify with deep learning 采用深度学习算法为Spotify做基于内容的音乐推荐
本文参考http://blog.csdn.net/zdy0_2004/article/details/43896015译文以及原文file:///F:/%E6%9C%BA%E5%99%A8%E5%AD ...
个推 Spark实践教你绕过开发那些“坑”
Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大提高处理速度,特别是复杂的迭代计算.Spark主要包括SparkSQL,SparkStreaming,Spark ...
Spark 实践——基于 Spark MLlib 和 YFCC 100M 数据集的景点推荐系统
1.前言上接 YFCC 100M数据集分析笔记和使用百度地图api可视化聚类结果, 在对 YFCC 100M 聚类出的景点信息的基础上,使用 Spark MLlib 提供的 ALS 算法构建推荐 ...
推荐系统实践 0x05 推荐数据集MovieLens及评测
推荐数据集MovieLens及评测数据集简介 MoiveLens是GroupLens Research收集并发布的关于电影评分的数据集,规模也比较大,为了让我们的实验快速有效的进行,我们选取了发布于 ...
MongoDB,HDFS, Spark to 电影推荐
http://www.infoq.com/cn/news/2014/12/mongdb-spark-movie-recommend MovieWeb是一个电影相关的网站,它提供的功能包括搜索电影信息. ...
Spark实践 -- 性能优化基础
性能调优相关的原理讲解.经验总结: 掌握一整套Spark企业级性能调优解决方案:而不只是简单的一些性能调优技巧. 针对写好的spark作业,实施一整套数据倾斜解决方案:实际经验中积累的数据倾斜现象的表 ...

随机推荐

sqoop导入时删除string类型字段的特殊字符
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/sheismylife/article/details/29384357 假设你指定了\n为sqoop ...
HTTP 请求头中的 X-Forwarded-For，X-Real-IP
X-Forwarded-For 在使用nginx做反向代理时,我们为了记录整个的代理过程,我们往往会在配置文件中做如下配置: location / { 省略... proxy_set_header ...
2.3.2 EditText(输入框)详解
本节引言: 上一节中我们学习了第一个 UI控件TextView(文本框),文中给出了很多实际开发中可能遇到的一些需求的解决方法,应该会为你的开发带来便利,在本节中,我们来学习第二个很常用的控件Edi ...
【题解】[HNOI2008]神奇的国度—BZOJ1006。
之前说顺着打BZOJ结果又被自己给鸽了qwq. ------------------------------------ 言归正传这道题应该怎么做. 先给大家普及一下弦图(连接环上俩个不相邻节点的边称 ...
C++之友元函数和友元类
通过friend关键字,我们可以将不属于当前类的一个函数在当前类中加以声明,该函数便可以成为当前类的友元函数. #include<iostream>using namespace std; ...
odoo之ERP系统
odoo大纲第一部分:数据库postgressql 大象第二部分:ORM(API) 第三部分:客户端用python软件写: .py文件包含两部分:1.自定义部分,由自己写,定义类和功能. .继 ...
大数据入门第十二天——sqoop入门
一.概述 1.sqoop是什么从其官网:http://sqoop.apache.org/ Apache Sqoop(TM) is a tool designed for efficiently tr ...
20155235 《网络攻防》实验八 Web基础
20155235 <网络攻防> 实验八 Web基础实验内容 Web前端HTML(0.5分) 能正常安装.启停Apache.理解HTML,理解表单,理解GET与POST方法,编写一个含有表 ...
PHP和PHPINFO
PHP开放源码和跨越平台,PHP可以运行在WINDOWS和多种版本的LINUX上.它不需要任何预先处理而快速反馈结果,它也不需要mod_perl的调整来使您的服务器的内存映象减小.PHP消耗的资源较少 ...
2017-2018-1 20155331 嵌入式C语言
2017-2018-1 20155331 嵌入式C语言作业要求: 在作业本上完成附图作业,要认真看题目要求. 提交作业截图作弊本学期成绩清零(有雷同的,不管是给别人传答案,还是找别人要答案都清零) ...