推荐系统之余弦相似度的Spark实现

（1）原理分析

余弦相似度度量是相似度度量中最常用的度量关系，从程序分析中，

第一步是数据的输入，
其次是使用相似性度量公式
最后是对不同用户的递归计算。

本例子是基于欧几里得举例的相似度计算。

（2）源代码

 package com.bigdata.demo

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by SimonsZhao on 3/29/2017.

   */

 object CollaborativeFilteringSpark {

   //1.设置环境变量

   val conf=new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark")

   //2.实例化环境

   val sc=new SparkContext(conf)

   //3.设置用户

   val users=sc.parallelize(Array("aaa","bbb","ccc","ddd","eee"))

   //4.设置电影名

   sc.parallelize(Array("smzdm","ylxb","znb","nhsc","fcwr"))

   //5.使用一个source嵌套map作为姓名电影名和分值的存储

   var source=Map[String,Map[String,Int]]()

   //6.设置一个用以存放电影分的map

   val filmSource =Map[String,Int]()

   //7.设置电影评分

   def getSource():Map[String,Map[String,Int]]={

     val user1FilmSource=Map("smzdm"->2,"ylxb"->3,"znb"->1,"nhsc"->0,"fcwr"->1)

     val user2FilmSource=Map("smzdm"->1,"ylxb"->2,"znb"->2,"nhsc"->1,"fcwr"->4)

     val user3FilmSource=Map("smzdm"->2,"ylxb"->1,"znb"->0,"nhsc"->1,"fcwr"->4)

     val user4FilmSource=Map("smzdm"->3,"ylxb"->2,"znb"->0,"nhsc"->5,"fcwr"->3)

     val user5FilmSource=Map("smzdm"->5,"ylxb"->3,"znb"->1,"nhsc"->1,"fcwr"->2)

     //存储人的名字

     source += ("aaa" -> user1FilmSource)

     //存储人的名字

     source += ("bbb" -> user2FilmSource)

     //存储人的名字

     source += ("ccc" -> user3FilmSource)

     //存储人的名字

     source += ("ddd" -> user4FilmSource)

     //存储人的名字

     source += ("eee" -> user5FilmSource)

     //返回嵌套的map

     source

   }

   //采用余弦相似度两两计算分值

   def getCollaborateSource(user1:String,user2:String):Double={

     //获得第一个用户的评分

       val user1FilmSource =source.get(user1).get.values.toVector

     //获得第二个用户的评分

       val user2FileSource=source.get(user2).get.values.toVector

     //对公示分子部分进行计算

       val member=user1FilmSource.zip(user2FileSource).map(d => d._1 *d._2).reduce(_+_).toDouble

     //求解分母的第一个变量

       val temp1=math.sqrt(user1FilmSource.map(num=>{math.pow(num,2)}).reduce(_+_))

     //求解分母第二个变量

       val temp2=math.sqrt(user2FileSource.map(num=>{math.pow(num,2)}).reduce(_+_))

     //求出分母

       val denominator=temp1*temp2

     //求出分式的值

       member/denominator

   }

   def main(args: Array[String]) {

     //初始化分数

     getSource()

     //设定目标对象

     val name="bbb"

     //进行迭代计算

     users.foreach(user=>{

       println(name+" 相对于"+user+"的相似性分数是："+getCollaborateSource(name,user))

     })

   }

 }

点击可复制代码

 package com.bigdata.demo

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by SimonsZhao on 3/29/2017.

   */

 object CollaborativeFilteringSpark {

   //1.设置环境变量

   val conf=new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark")

   //2.实例化环境

   val sc=new SparkContext(conf)

   //3.设置用户

   val users=sc.parallelize(Array("aaa","bbb","ccc","ddd","eee"))

   //4.设置电影名

   sc.parallelize(Array("smzdm","ylxb","znb","nhsc","fcwr"))

   //5.使用一个source嵌套map作为姓名电影名和分值的存储

   var source=Map[String,Map[String,Int]]()

   //6.设置一个用以存放电影分的map

   val filmSource =Map[String,Int]()

   //7.设置电影评分

   def getSource():Map[String,Map[String,Int]]={

     val user1FilmSource=Map("smzdm"->2,"ylxb"->3,"znb"->1,"nhsc"->0,"fcwr"->1)

     val user2FilmSource=Map("smzdm"->1,"ylxb"->2,"znb"->2,"nhsc"->1,"fcwr"->4)

     val user3FilmSource=Map("smzdm"->2,"ylxb"->1,"znb"->0,"nhsc"->1,"fcwr"->4)

     val user4FilmSource=Map("smzdm"->3,"ylxb"->2,"znb"->0,"nhsc"->5,"fcwr"->3)

     val user5FilmSource=Map("smzdm"->5,"ylxb"->3,"znb"->1,"nhsc"->1,"fcwr"->2)

     //存储人的名字

     source += ("aaa" -> user1FilmSource)

     //存储人的名字

     source += ("bbb" -> user2FilmSource)

     //存储人的名字

     source += ("ccc" -> user3FilmSource)

     //存储人的名字

     source += ("ddd" -> user4FilmSource)

     //存储人的名字

     source += ("eee" -> user5FilmSource)

     //返回嵌套的map

     source

   }

   //采用余弦相似度两两计算分值

   def getCollaborateSource(user1:String,user2:String):Double={

     //获得第一个用户的评分

       val user1FilmSource =source.get(user1).get.values.toVector

     //获得第二个用户的评分

       val user2FileSource=source.get(user2).get.values.toVector

     //对公示分子部分进行计算

       val member=user1FilmSource.zip(user2FileSource).map(d => d._1 *d._2).reduce(_+_).toDouble

     //求解分母的第一个变量

       val temp1=math.sqrt(user1FilmSource.map(num=>{math.pow(num,2)}).reduce(_+_))

     //求解分母第二个变量

       val temp2=math.sqrt(user2FileSource.map(num=>{math.pow(num,2)}).reduce(_+_))

     //求出分母

       val denominator=temp1*temp2

     //求出分式的值

       member/denominator

   }

   def main(args: Array[String]) {

     //初始化分数

     getSource()

     //设定目标对象

     val name="bbb"

     //进行迭代计算

     users.foreach(user=>{

       println(name+" 相对于"+user+"的相似性分数是："+getCollaborateSource(name,user))

     })

   }

 }

点击+可复制代码

（3）结果分析

随机推荐

python -m 命令单独运行一个文件，怎么解决单独运行文件报错？
依旧是续上篇解决为什么项目能运行,单独文件不能运行. 依旧是python3先发下目录结构,依旧是cmd运行,不要弄pycharm开始运行,否则有些错误就发现不了! 项目下面有pac1文件夹,pac1下 ...
MTK 预置apk
一.如何将带源码的APK预置进系统? 1) 在 packages/apps 下面以需要预置的 APK的名字创建一个新文件夹,以预置一个名为Test的APK 为例 2) 将 Test ...
配置ORACLE 11g绿色版客户端和PLSQL远程连接环境
配置ORACLE 11g绿色版客户端和PLSQL环境本方法是通过使用ORACLE官方提供的精简版客户端,即绿色免安装的客户端. Instant client的版本很多:主要是Basic和Ba ...
aspose导出excel文件
using Aspose.Cells; using System; using System.Collections.Generic; using System.Data; using System. ...
8 -- 深入使用Spring -- 2...2 指定Bean的作用域
8.2.2 指定Bean的作用域当使用XML 配置方式来配置Bean实例时,可以通过scope来指定Bean实例的作用域,没有指定scope属性的Bean实例作用域默认是singleton. 当采用 ...
8 -- 深入使用Spring -- 1...3 容器后处理器
8.1.3 容器后处理器(BeanFactoryPostProcessor) 容器后处理器负责处理容器本身. 容器后处理器必须实现BeanFacotryPostProcessor接口.实现该接口必须实 ...
gem install cocoapods ERROR: While executing gem ... (Gem::FilePermissionError)
在cocoapods 执行 sudo gem install cocoapods 的时候出现 While executing gem ... (Gem::FilePermissionError) ...
error LNK2038: 检测到“_MSC_VER”的不匹配项: 值“1600”不匹配值“1800”
_MSC_VER 定义编译器的版本.下面是一些编译器版本的_MSC_VER值:MS VC++ 10.0 _MSC_VER = 1600MS VC++ 9.0 _MSC_VER = 1500MS VC+ ...
【VTK】VTK 之一环境准备
VTK总结 http://blog.sina.com.cn/s/articlelist_2216172153_3_1.html VTK教程http://blog.csdn.net/www_doling ...
启用sharepoin2013中的ChartWebPart
首先看一张sharepoint2013中ChartWebPart的效果图. 在sharepoint2010中加入了一个新的webpart,叫ChartWebPart,提供了对数据的图表展示,可以对数据 ...

推荐系统之余弦相似度的Spark实现

推荐系统之余弦相似度的Spark实现

（1）原理分析

（2）源代码

（3）结果分析

推荐系统之余弦相似度的Spark实现的更多相关文章

随机推荐

热门专题