音乐推荐与Audioscrobbler数据集】的更多相关文章

本文基于<Spark 高级数据分析>第3章 用音乐推荐和Audioscrobbler数据 完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c3/recommend 1.获取数据集 本 章 示 例 使 用 Audioscrobbler 公 开 发 布 的 一 个 数 据 集. Audioscrobbler 是 last.fm 的 第一个音乐推荐系统. last.fm 创建于 2002 年,是最早的互联网流媒体广播站点之一.…
1. Audioscrobbler数据集 数据下载地址: http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz Audioscrobbler 数据集只记录了播放数据,如“Bob 播放了一首Prince 的歌曲”.播放记录所包含的信息比评分要少.仅凭Bob 播放过某一首歌这一信息并不能说明他真的喜欢这首歌. 虽然人们经常听音乐,但却很少给音乐评分.因此Audiocrobbler 数据集要大得多.它覆盖了更…
偏好是无法度量的. 相比其他的机器学习算法,推荐引擎的输出更直观,更容易理解. 接下来三章主要讲述Spark中主要的机器学习算法.其中一章围绕推荐引擎展开,主要介绍音乐推荐.在随后的章节中我们先介绍Spark和MLib的实际应用,接着介绍一些机器学习的基本思想. 3.1 数据集 用户和艺术家的关系是通过其他行动隐含提现出来的,例如播放歌曲或专辑,而不是通过显式的评分或者点赞得到的.这被称为隐式反馈数据.现在的家用电视点播也是这样,用户一般不会主动评分. 数据集在http://www-etud.i…
本篇文章的开头笔者提出一个疑问,何为数据科学,数据科学是做什么的?大家带着这个疑问去读接下来的这篇音乐推荐的公众号. 从经验上讲,推荐引擎属于大规模机器学习,在日常购物中大家或许深有体会,比如:你在淘宝上浏览了一些商品,或者购买了一些商品,那么淘宝就会根据你的偏好给你推荐一些其他类似的商品.然而,相比较其他机器学习算法,推荐引擎的输出更加的直观,有时候的推荐效果让人吃惊.作为机器学习开篇文章,本篇文章会系统的介绍基于Audioscrobbler数据集的音乐推荐. 数据集介绍 Audioscrob…
本文参考http://blog.csdn.net/zdy0_2004/article/details/43896015译文以及原文file:///F:/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/Recommending%20music%20on%20Spotify%20with%20deep%20learning%20%E2%80%93%20Sander%20Dieleman.html 本文是比利时根特大学(Ghent University)的Reservoir …
关于数据集的制作,我决定去掉很多不必要的东西,比如和弦,于是我选择了melody部分的旋律. 有了midi文件,我现在要abc序列,所以我要通过midi2abc转换一下文件. 批处理程序效果如下: 文件代码如下: import os filelist = os.listdir('C:\\Users\\zyx\\Desktop\\New\\melody') #遍历文件夹所有的文件 file_raw_list = list(filter(lambda filename:filename[-4:] =…
原文链接 本文修正部分错误. 以下是精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集. 标签解释 [经典]这些是在 AI 领域中非常著名.众所周知的数据集.很少有研究者或工程师没有听说过它们. [有用]这些是更加接近现实世界的.精心设计的数据集.而且,这些数据集通常在产品和研发两方面都有用. [学术]这些是在机器学习和 AI 的学术研究中通常作为基准或基线使用的数据集.无论好坏,研究人员都使用这些数据集来验证算法. [陈旧]这些数据集,无论是否实用,已经有相当长历史了. 计算…
在前几天的讨论会上,有师兄指出原来的方法实在是很难训练,所以我改进了音乐生成的思路. 首先,我用LSTM生成的一定是一段音乐的序列化表达,那么我就可以用成型的一些数据集去训练LSTM.为了避免生成的音乐与现有的音乐有大量重复,我们可以考虑更改LSTM使其更加“健忘”,这样应该能解决一部分问题.接下来肯定还会暴露出更多的问题,我会持续阐述我的思路. 首先找到一个合适的数据集.打开 http://www.mln.io/resources/datasets/ 之后我讲解一下这些数据集的用法: 第一个C…
这是一份非常全面的开源数据集,你,真的不想要吗?   近期,skymind.ai 发布了一份非常全面的开源数据集.内容包括生物识别.自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~) 最近新增数据集 开源生物识别数据:http://openbiometrics.org/ Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段. 地址:https://research.googl…
本文引自http://i.cnblogs.com/EditPosts.aspx?opt=1 如果说过去的十年是搜索技术大行其道的十年,那么个性化推荐技术将成为未来十年中最重要的革新之一.目前几乎所有大型的电子商务系统,如Amazon.CDNOW.Netflix等,都不同程度地使用了各种形式的推荐系统.而近来以“发现”为核心的网站正开始在互联网上崭露头角,比如侧重于音乐推荐的八宝盒,侧重于图书推荐的豆瓣等等.   那么,一个好的推荐系统需要满足什么目标呢?个性化推荐系统必须能够基于用户之前的口味和…