Machine Learning With Spark学习笔记（提取10万电影数据特征）

注：原文中的代码是在spark-shell中编写运行的，本人的是在eclipse中编写运行，所以结果输出形式可能会与这本书中的不太一样。

首先将用户数据u.data读入SparkContext中。然后输出第一条数据看看效果。代码例如以下：

val sc = new SparkContext("local", "ExtractFeatures")

val rawData = sc.textFile("F:\\ScalaWorkSpace\\data\\ml-100k\\u.data")

println(rawData.first())

注意：第一行代码我创建了spark上下文，假设你是在spark-shell中运行代码。它会自己主动创建好spark上下文，名字为sc，我是在eclipse中编写代码。所以须要自己编写代码创建spark上下文，我们能够看到有例如以下输出：

每条数据是由“\t”分隔的，我们如今要取出每条数据，然后再取到每条数据的前三个元素。即用户ID。电影ID，用户给电影的评分，代码例如以下：

val rawRatings = rawData.map(_.split("\t").take(3))

rawRatings.first().foreach(println)

能够看到相似例如以下的输出：

接下来我们将使用spark内置的MLlib库来训练我们的模型。先来看看有哪些方法能够使用，须要什么參数作为输入。首先我们导入内置库文件ALS：

import org.apache.spark.mllib.recommendation.ALS

接下来的操作是在spark-shell中完毕的。在控制台下输入ALS.（注意ALS后面有一个点）加上tap键：

我们将要使用到的方法是train方法。

假设我们输入ALS.train，会返回一个错误，可是我们能够从这个错误中看看这种方法的细节：

能够看到，我们最少要提供三个參数：ratings,rank,iterations。第二个方法还须要另外一个參数lambda。我们先来看看參数rating的类Rating：

我们能够看到，我们须要向ALS模型提供一个包括Rating的RDD。Rating将user id。movie id（就是这里的product）和rating封装起来。

我们将在评分数据集（rating dataset）上使用map方法。将ID和评分的数组转换成Rating对象：

val ratings = rawRatings.map {

      case Array(user, movie, rating) =>

        Rating(user.toInt, movie.toInt, rating.toDouble)

    }

println(ratings.first())

输出例如以下：

如今我们得到了一个Rating类型的RDD。

Machine Learning With Spark学习笔记（提取10万电影数据特征）的更多相关文章

Machine Learning With Spark学习笔记（在10万电影数据上训练、使用推荐模型）
我们如今開始训练模型,还输入參数例如以下: rank:ALS中因子的个数.通常来说越大越好,可是对内存占用率有直接影响,通常rank在10到200之间. iterations:迭代次数,每次迭代都会降 ...
Deep learning with Python 学习笔记（10）
生成式深度学习机器学习模型能够对图像.音乐和故事的统计潜在空间(latent space)进行学习,然后从这个空间中采样(sample),创造出与模型在训练数据中所见到的艺术作品具有相似特征的新作品 ...
Coursera 机器学习第6章（下） Machine Learning System Design 学习笔记
Machine Learning System Design下面会讨论机器学习系统的设计.分析在设计复杂机器学习系统时将会遇到的主要问题,给出如何巧妙构造一个复杂的机器学习系统的建议.6.4 Buil ...
Machine Learning(Andrew Ng)学习笔记
1.监督学习(supervised learning)&非监督学习(unsupervised learning) 监督学习:处理具有若干属性且返回值不同的对象.分为回归型和分类型:回归型的返回 ...
Deep learning with Python 学习笔记（11）
总结机器学习(machine learning)是人工智能的一个特殊子领域,其目标是仅靠观察训练数据来自动开发程序［即模型(model)］.将数据转换为程序的这个过程叫作学习(learning) 深 ...
Deep learning with Python 学习笔记（9）
神经网络模型的优化使用 Keras 回调函数使用 model.fit()或 model.fit_generator() 在一个大型数据集上启动数十轮的训练,有点类似于扔一架纸飞机,一开始给它一点推 ...
机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
Deep learning with Python 学习笔记（8）
Keras 函数式编程利用 Keras 函数式 API,你可以构建类图(graph-like)模型.在不同的输入之间共享某一层,并且还可以像使用 Python 函数一样使用 Keras 模型.Ker ...
Deep learning with Python 学习笔记（7）
介绍一维卷积神经网络卷积神经网络能够进行卷积运算,从局部输入图块中提取特征,并能够将表示模块化,同时可以高效地利用数据.这些性质让卷积神经网络在计算机视觉领域表现优异,同样也让它对序列处理特别有效. ...

随机推荐

IOS基础学习日志(七)利用dispatch_once创建单例及使用
自苹果引入了Grand Central Dispatch (GCD)(Mac OS 10.6和iOS4.0)后,创建单例又有了新的方法,那就是使用dispatch_once函数,当然,随着演进的进行. ...
kafka自带没web ui界面，怎么办？安装个第三方的
见基于Web的Kafka管理器工具之Kafka-manager的编译部署详细安装 (支持kafka0.8.0.9和0.10以后版本)(图文详解)(默认端口或任意自定义端口)
LuoguP2774 方格取数问题(最小割)
题目背景 none! 题目描述在一个有 m*n 个方格的棋盘中,每个方格中有一个正整数.现要从方格中取数,使任意 2 个数所在方格没有公共边,且取出的数的总和最大.试设计一个满足要求的取数算法.对于 ...
pwconv---pwunconv 密码投影
pwconv命令用来开启用户的投影密码.Linux系统里的用户和群组密码,分别存放在名称为passwd和group的文件中, 这两个文件位于/etc目录下.因系统运作所需,任何人都得以读取它们,造成安 ...
artDialog提示框、对话框
/** * 警告 * @param {String}消息内容 */ artDialog.alert = function (content, callback) { return artDialog( ...
BestCoder Round #65 HDOJ5592 ZYB's Premutation(树状数组+二分)
ZYB's Premutation Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Othe ...
javascript创建对象的方法--组合模式
javascript创建对象的方法--组合模式一.总结 0.作用:解决原型模式对象独有属性创建麻烦的问题 1.组合模式使用普遍:jquery就是用的组合模式,组合模式使用非常普遍 2.组合模式优点: ...
[ Tomcat ] [ startup ] Tomcat 無法在時限內開啟問題
http://www.ewdna.com/2011/12/tomcat-server-in-eclipse-unable-to.html
洛谷 P2384 最短路
洛谷 P2384 最短路题目背景狗哥做烂了最短路,突然机智的考了Bosh一道,没想到把Bosh考住了...你能帮Bosh解决吗? 他会给你10000000000000000000000000000 ...
【2017"百度之星"程序设计大赛 - 初赛（B）】Chess
[链接]http://bestcoder.hdu.edu.cn/contests/contest_showproblem.php?cid=776&pid=1001 [题意] 在这里写题意 [题 ...

Machine Learning With Spark学习笔记（提取10万电影数据特征）

Machine Learning With Spark学习笔记（提取10万电影数据特征）的更多相关文章

随机推荐

热门专题