本文将使用 SparkML 来构建推荐引擎。 
推荐引擎算法大致分为 基于内容的过滤、协同过滤、矩阵分解,本文将使用基于属于矩阵分解的 最小二乘法 算法来构建推荐引擎。 
对于推荐引擎模块这里将分为两篇文章,第一篇文章主要是以实现推荐功能为主,第二篇文章主要是对模型进行评估 
文章将按照以下章节来进行书写: 需求分析、获取数据、提取特征、训练模型、使用模型(推荐)

一、需求分析
假设我们是 MovieStream 团队,专门为用户提供在线电影和电视节目的内容服务。
现在我们有个需求::给用户推荐电影!
就这么简单,哈哈~

二、获取数据
可从 http://files.grouplens.org/datasets/movielens/ml-100k.zip 下载模拟的数据集。
对于推荐模型,主要用到了里面的三个文件:

u.user(用户属性文件)
u.item(电影元数据)
u.data(用户对电影的评级)
数据文件说明:
1、u.user(用户属性文件)
字段及格式说明:user id | age | gender | occupation(职业) | zip code
样例:

||M|technician|
||F|other|
||M|writer|
||M|technician|
||F|other|

2、u.item(电影信息数据)
字段及格式说明:
movie id | movie title | release date | video release date | IMDb URL | unknown | Action | Adventure | Animation | Children’s | Comedy | Crime | Documentary | Drama | Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western |
样例:

|Toy Story ()|-Jan-||http://us.imdb.com/M/title-exact?Toy%20Story%20(1995)|0|0|0|1|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0
|GoldenEye ()|-Jan-||http://us.imdb.com/M/title-exact?GoldenEye%20(1995)|0|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0
|Four Rooms ()|-Jan-||http://us.imdb.com/M/title-exact?Four%20Rooms%20(1995)|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0
|Get Shorty ()|-Jan-||http://us.imdb.com/M/title-exact?Get%20Shorty%20(1995)|0|1|0|0|0|1|0|0|1|0|0|0|0|0|0|0|0|0|0
|Copycat ()|-Jan-||http://us.imdb.com/M/title-exact?Copycat%20(1995)|0|0|0|0|0|0|1|0|1|0|0|0|0|0|0|0|1|0|0
3、u.data(用户对电影的评分)

字段及格式说明:user_id item_id rating timestamp(注意:分隔符为 “\t”) 
样例:


三、提取特征

/* 生成用户评分数据的RDD,格式为:用户 电影 评分 时间戳 */
val rawData: RDD[String] = sc.textFile("file:///E:/spark/ml-100k/u.data")
/* 去掉时间戳的字段,格式变为:用户 电影 评分; rawRating类型为Array */
val rawRatings = rawData.map(_.split("\\t").take())
/* 格式变为:Rating(用户 电影 评分),作为后续训练模型的参数 */
val ratings = rawRatings.map{case Array(user, movie, rating) =>{
//封装成Rating
Rating(user.toInt, movie.toInt, rating.toDouble)
}}

四、训练模型
最小二乘法的模型需要以下三个参数:

1、rank
对应ALS模型中的因子个数,也就是在低阶近似矩阵中的隐含特征个数。因子个数一般越多越好。但它也会接影响模型训练和保存时所需的内存开销,尤其是在用户和物品很多的时候。因此实践中该参数常作为训练效果与系统开销之间的调节参数。通常,其合理取值为10到200。
可以简单理解为:模型因子的列的数量

2、iterations
对应运行时的迭代次数。ALS能确保每次迭代都能降低评级矩阵的重建误差,但一般经少数次迭代后ALS模型便已能收敛为一个比较合理的好模型。这样,大部分情况下都没必要迭代太多次(10次左右一般就挺好)。

3、lambda
该参数控制模型的正则化过程,从而控制模型的过拟合情况。其值越高,正则化越严厉。该参数的赋值与实际数据的大小、特征和稀疏程度有关。和其他的机器学习模型一样,正则参数应该通过用非样本的测试数据进行交叉验证来调整。

这里将使用的 rank、iterations 和 lambda 参数的值分别为50、10和0.01
代码如下:

import org.apache.spark.mllib.recommendation.{Rating, ALS}
//这就得到了推荐的模型
val model = ALS.train(ratings, , , 0.01)

五、使用模型(推荐)

1、用户推荐

为 id 为 789 的用户推荐10个电影

//为指定的用户推荐 N 个商品
val userID =
val K =
val topKRecs: Array[Rating] = model.recommendProducts(userID, K)
println(topKRecs.mkString("\n"))

输出为:

Rating(,,5.931851273771102)
Rating(,,5.582301095666215)
Rating(,,5.516272981542168)
Rating(,,5.458065302395629)
Rating(,,5.449949837103569)
Rating(,,5.348768847643657)
Rating(,,5.30832117499004)
Rating(,,5.278933936827717)
Rating(,,5.250959077906759)
Rating(,,5.169863417126231)

2、物品推荐(作为了解)
物品推荐可以理解为:给定一个物品,推荐 K 个与该物品相似的物品
我们上面得到的推荐模型中没有提供物品推荐的方法,但是谋问题,我们自己可以根据余弦相似度来实现。

科普:余弦相似度是两个两个向量在n维空间里两者夹角的度数。它的值是两个向量的点积与各向量范数(或长度)的乘积的商。该值的取值范围是 -1 到 1 之间,1表示完全相似,0表示不相关,-1表示两者不仅不相关而且还完全不同。

ok,我们来写一个计算余弦相似度的函数,在写之前需要引入 jblas 线性代数库,该库中有一个 DoubleMatrix 类对象,向量和矩阵都用该对象来表示

import org.jblas.DoubleMatrix
/**
* 用于商品推荐
* 通过传入两个向量,返回这两个向量之间的余弦相似度
* @param vec1
* @param vec2
* @return
*/
def cosineSimilarity(vec1: DoubleMatrix, vec2: DoubleMatrix): Double = {
vec1.dot(vec2) / (vec1.norm2() * vec2.norm2())
}

开始根据物品推荐:

/**
* 基于商品进行推荐
*/
/*通过商品ID获得与该商品相似的商品*/
val itemId =
val itemFactor: Array[Double] = model.productFeatures.lookup(itemId).head
val itemVector: DoubleMatrix = new DoubleMatrix(itemFactor)
//获得每个商品与给出的商品的余弦相似度
val sims = model.productFeatures.map{case (id, factor) => {
val factorVector = new DoubleMatrix(factor)
val sim = cosineSimilarity(factorVector, itemVector)
(id, sim)
}}
//打印出前10的商品
val topItem: Array[(Int, Double)] = sims.sortBy(-_._2).take()
println("与567商品相似的商品:\n" + topItem.mkString("\n") + "\n")

输出为:

与567商品相似的商品:
(,1.0)
(,0.6932331537649621)
(,0.6898690594544726)
(,0.6897964975027041)
(,0.6891221044611473)
(,0.6864214133620066)
(,0.6812075443259535)
(,0.6754663844488256)
(,0.6702643811753909)
(,0.6594872765176396)

很正常,排名第一的最相似物品就是我们给定的物品。但是注意,因为模型的初始化是随机的,所以后面的商品可能跟你的不一样,这很正常哈~

SparkML之推荐引擎(一)---电影推荐的更多相关文章

  1. SparkML之推荐引擎(二)---推荐模型评估

    本文内容和代码是接着上篇文章来写的,推荐先看一下哈~ 我们上一篇文章是写了电影推荐的实现,但是推荐内容是否合理呢,这就需要我们对模型进行评估 针对推荐模型,这里根据 均方差 和 K值平均准确率 来对模 ...

  2. [转] 基于 Apache Mahout 构建社会化推荐引擎

    来源:http://www.ibm.com/developerworks/cn/java/j-lo-mahout/index.html 推荐引擎简介 推荐引擎利用特殊的信息过滤(IF,Informat ...

  3. 基于 Apache Mahout 构建社会化推荐引擎

    基于 Apache Mahout 构建社会化推荐引擎 http://www.ibm.com/developerworks/cn/views/java/libraryview.jsp 推荐引擎利用特殊的 ...

  4. 基于Spark ALS构建商品推荐引擎

    基于Spark ALS构建商品推荐引擎   一般来讲,推荐引擎试图对用户与某类物品之间的联系建模,其想法是预测人们可能喜好的物品并通过探索物品之间的联系来辅助这个过程,让用户能更快速.更准确的获得所需 ...

  5. 简易推荐引擎的python实现

    代码地址如下:http://www.demodashi.com/demo/12913.html 主要思路 使用协同过滤的思路,从当前指定的用户过去的行为和其他用户的过去行为的相似度进行相似度评分,然后 ...

  6. 机器学习 101 Mahout 简介 建立一个推荐引擎 使用 Mahout 实现集群 使用 Mahout 实现内容分类 结束语 下载资源

      机器学习 101 Mahout 简介 建立一个推荐引擎 使用 Mahout 实现集群 使用 Mahout 实现内容分类 结束语 下载资源 相关主题   在信息时代,公司和个人的成功越来越依赖于迅速 ...

  7. SparkMLlib—协同过滤推荐算法,电影推荐系统,物品喜好推荐

    SparkMLlib-协同过滤推荐算法,电影推荐系统,物品喜好推荐 一.协同过滤 1.1 显示vs隐式反馈 1.2 实例介绍 1.2.1 数据说明 评分数据说明(ratings.data) 用户信息( ...

  8. 从源代码剖析Mahout推荐引擎

    转载自:http://blog.fens.me/mahout-recommend-engine/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pi ...

  9. 基于Azure构建PredictionIO和Spark的推荐引擎服务

    基于Azure构建PredictionIO和Spark的推荐引擎服务 1. 在Azure构建Ubuntu 16.04虚拟机 假设前提条件您已有 Azure 帐号,登陆 Azure https://po ...

随机推荐

  1. ES容易忽视的集群配置

    一 前言 目前生产系统由Solr转ES了,在这边就记录下在使用过程中容易忽视的配置吧,其实我也是才用,如果有什么错误的地方,多指正. 二.配置 1.ES的段合并是限速设置 默认是20MB/s ,如果是 ...

  2. 【Java】设计模型-五种单例模型

    一. 什么是单例模式 只需要某个类同时保留一个对象,不希望有更多对象,此时,我们则应考虑单例模式的设计. 单例模式的主要作用是保证在Java程序中,某个类只有一个实例存在. 单例模式有很多好处,它能够 ...

  3. layui form表单自定义sm格式

    1. 新建以下sm样式,保存为layform_sm.css文件名,然后导入到layui.css的后面. .layui-input-sm,.layui-select-sm,.layui-textarea ...

  4. Windows 10 Version 1803 (Updated March 2018) MSDN 镜像下载

    微软已按先前预期于美国时间 2018 年 4 月 30 日正式向所有用户发布了 Windows 10 Version 1803 (Updated March 2018) 的 ISO 镜像下载,按微软官 ...

  5. 02Hadoop二次排序2

    案例: 数据: 邮编   |     日期     |金额 ILMN,2013-12-05,97.65GOOD,2013-12-09,1078.14IBM,2013-12-09,177.46ILMN, ...

  6. laravel框架生產vender文件夹

    方法一.修改拓展 去php.ini中查看下面三个扩展项是否开启 extension=php_fileinfo.dll extension=php_mbstring.dll extension=php_ ...

  7. java jdk 打开出错 Failed to load the JNI shared library

    ``` Failed to load the JNI shared library 解决方法 换了JDK 32位x86的 打开32位 eclipse 2017 oxygen 出现这个问题,修改 配置文 ...

  8. Linux (OpenBSD)系统目录分析

    IER(7)                    OpenBSD Reference Manual                    HIER(7) NAME      hier - layou ...

  9. 【MyBatis学习06】_parameter:解决There is no getter for property named in class java.lang.String

    我们知道在mybatis的映射中传参数,只能传入一个.通过#{参数名} 即可获取传入的值. Mapper接口文件: public int delete(int id) throws Exception ...

  10. 《Go语言网络编程》第一章:体系

    原书地址:http://tumregels.github.io/Network-Programming-with-Go 如果不知道想要构建什么,是不可能创建一个系统的.而且如果不知道它工作的环境,也同 ...