hadoop与spark的处理技巧（四）推荐引擎处理技巧

经常一起购买的商品

scala> var file=sc.textFile("/user/ghj/togeterBought")

file: org.apache.spark.rdd.RDD[String] = /user/ghj/togeterBought MapPartitionsRDD[28] at textFile at <console>:25

scala> file.collect

res0: Array[String] = Array(t1 p1 p2 p3, t2 p2 p3, t3 p2 p3 p4, t4 p5 p6, t5 p3 p4)

scala> var mapFile=file.map(line=>{

     |   import scala.collection.mutable.ListBuffer;

     |   var listBuff=ListBuffer[(String,String)]();

     |   var list=line.split(" ").toList;

     |   var ll=list.takeRight(list.size-1);

     |   for(p1<-ll){

     |     for(p2<-ll){

     |       if(ll.indexOf(p1) != ll.indexOf(p2)){

     |         if(p1<p2){

     |           listBuff=listBuff:+((p1,p2));

     |         }else{

     |           listBuff=listBuff:+((p2,p1));

     |         }

     |       }

     |     }

     |   }

     |   listBuff;

     | }).flatMap(x=>x).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x,x._2/2));

mapFile: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD[30] at flatMap at <console>:46

scala> mapFile.collect

res4: Array[(((String, String), Int), Int)] = Array((((p5,p6),2),1), (((p1,p3),2),1), (((p2,p4),2),1), (((p3,p4),4),2), (((p2,p3),6),3), (((p1,p2),2),1))

hadoop与spark的处理技巧（四）推荐引擎处理技巧的更多相关文章

【Spark机器学习速成宝典】推荐引擎——协同过滤
目录推荐模型的分类 ALS交替最小二乘算法:显式矩阵分解 Spark Python代码:显式矩阵分解 ALS交替最小二乘算法:隐式矩阵分解 Spark Python代码:隐式矩阵分解推荐模型的分类 ...
数据算法 --hadoop/spark数据处理技巧 --（7.共同好友 8. 使用MR实现推荐引擎）
七,共同好友. 在所有用户对中找出“共同好友”. eg: a b,c,d,g b a,c,d,e map()-> <a,b>,<b,c,d,g> ;< ...
Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）（十八）
不多说,直接上干货! 说在前面的话此笔,对于仅对于Hadoop和Spark初中学者.高手请忽略! 1 Java基础: 视频方面: 推荐<毕向东JAVA基础视频教程>.学 ...
Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）
说在前面的话此笔,对于仅对于Hadoop和Spark初中学者.高手请忽略! 1 Java基础: 视频方面: 推荐<毕向东JAVA基础视频教程>.学习hadoop不需要过 ...
成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...
Ubuntu14.04或16.04下Hadoop及Spark的开发配置
对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse.Intel ...
基于Azure构建PredictionIO和Spark的推荐引擎服务
基于Azure构建PredictionIO和Spark的推荐引擎服务 1. 在Azure构建Ubuntu 16.04虚拟机假设前提条件您已有 Azure 帐号,登陆 Azure https://po ...
Hadoop与Spark比较
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为 ...
2分钟读懂Hadoop和Spark的异同
谈到大数据框架,现在最火的就是Hadoop和Spark,但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,倒底现在业界都在使用哪种技术?二者间究竟有哪些异同?它们各自解决了哪些问题? ...

随机推荐

Jmeter系列（7）- 基础线程组Thread Group
如果你想从头学习Jmeter,可以看看这个系列的文章哦 https://www.cnblogs.com/poloyy/category/1746599.html Thread Group基础线程组介绍 ...
2019-2020-1 20199310《Linux内核原理与分析》第六周作业
1.问题描述在前面的文章中,学习了系统调用的相关理论知识,并使用库函数API和C代码中嵌入汇编代码两种方式使用getpid()系统调用.本文将内容围绕系统调用system_call的处理过程,在Me ...
写给Java程序员的Java虚拟机学习指南
大家好,我是极客时间<深入拆解Java虚拟机>作者.Oracle Labs高级研究员郑雨迪.有幸借这个专题的机会,能和大家分享为何Java工程师要学Java虚拟机?如何掌握Java虚拟机? ...
Javascript基础之-var，let和const深入解析（二）
你想在在变量声明之前就使用变量?以后再也别这样做了. 新的声明方式(let,const)较之之前的声明方式(var),还有一个区别,就是新的方式不允许在变量声明之前就使用该变量,但是var是可以得.请 ...
centos6.X修改ssh默认端口号
先查看下服务器端口号范围: # sysctl -a|grep ip_local_port_range net.ipv4.ip_local_port_range = 32768 61000 新ss ...
使用BottomNavigationView+ViewPager+Fragment的底部导航栏
2019独角兽企业重金招聘Python工程师标准>>> 使用BottomNavigationView做底部工具栏,使用ViewPager做页面切换,使用Fragment完成每个页面的 ...
疯子的算法总结(七) 字符串算法之 manacher 算法 O（N）解决回文串
有点像DP的思想,写写就会做. #include<bits/stdc++.h> using namespace std; const int maxn=1e7+5; char a[maxn ...
关于RMQ问题的四种解法
什么是RMQ问题: RMQ (Range Minimum/Maximum Query):对于长度为n的数组A,回答若干询问RMQ(A,i,j)(i,j<=n-1),返回数组A中下标在i, ...
Spring MVC的Controller接受请求方式以及编写请求处理方法
Controller接受请求参数的常见方法: 1.通过Bean接受请求参数: 创建POJO实体类创建pojo包,并在该包中创建实体类UserForm,代码: package pojo; public ...
golang之channel
Buffered Channels package main import "fmt" func main() { ch := make(chan int, 2) ch <- ...

hadoop与spark的处理技巧（四）推荐引擎处理技巧

hadoop与spark的处理技巧（四）推荐引擎处理技巧的更多相关文章

随机推荐

热门专题