环境:
  Hadoop1.x,CentOS6.5,三台虚拟机搭建的模拟分布式环境

  数据:下载的amazon产品共同采购网络元数据(需翻墙下载)http://snap.stanford.edu/data/amazon-meta.html

方案目标:

  从数据中提取出每个用户买过哪些商品,根据买过的商品以及商品之间的相关性来对用户进行推荐商品

  下载的数据如下所示为单位

Id: 1
ASIN: 0827229534
title: Patterns of Preaching: A Sermon Sampler
group: Book
salesrank: 396585
similar: 5 0804215715 156101074X 0687023955 0687074231 082721619X
categories: 2
|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]
|Clergy[12360]|Preaching[12368]
|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]
|Clergy[12360]|Sermons[12370]
reviews: total: 2 downloaded: 2 avg rating: 5
2000-7-28 cutomer: A2JW67OY8U6HHK rating: 5 votes: 10 helpful: 9
2003-12-14 cutomer: A2VE83MZF98ITY rating: 5 votes: 6 helpful: 5

思路:

  整套程序需要分解为两个步骤。1.提取每个用户买过哪些商品。2.根据第一步产生的数据,结合用户的感兴趣度与商品之间的关联生成推荐商品

本篇文章主要做第一步。

这一步骤的主要难点是对自定义输入格式的编写。

1.自定义格式化输入数据

  如上所示的数据, 需要自定义输入数据的格式来提取数据。

  job.setInputFormatClass(TestAmazonDataFormat.class);

  那怎么做自定义输入格式呢?

  这里我们需要了解文件在HDFS中的处理方式。我们知道文件在放入HDFS中时会进行分片。因此我们要对数据进行操作的时候,需要获取文件的信息(文件名、path、开始位置、长度、位于哪个节点等)。

传入文件信息:

//获取文件信息
public class TestAmazonDataFormat extends FileInputFormat<Text, Text> { TestAmazonDataReader datareader;
@Override
public RecordReader<Text, Text> createRecordReader(InputSplit inputSplit, TaskAttemptContext attempt)
throws IOException, InterruptedException {
datareader = new TestAmazonDataReader();
datareader.initialize(inputSplit, attempt); //传入文件信息
// TODO Auto-generated method stub
return datareader;
} }

读取文件:

package ren.snail;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.regex.Matcher;
import java.util.regex.Pattern; import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit; /**
* @author Srinath Perera (hemapani@apache.org)
*/ public class TestAmazonDataReader extends RecordReader<Text, Text> {
private static Pattern pattern1 = Pattern.compile(
"\\s+([^\\s]+)\\s+cutomer:\\s+([^\\s]+)\\s+rating:\\s+([^\\s]+)\\s+votes:\\s+([^\\s]+)\\s+helpful:\\s+([^\\s]+).*");
private BufferedReader reader;
private int count = 0;
private Text key;
private Text value;
private StringBuffer currentLineData = new StringBuffer();
String line = null; public TestAmazonDataReader() {
} public void initialize(InputSplit inputSplit, TaskAttemptContext attempt) throws IOException, InterruptedException {
// TODO Auto-generated method stub
Path path = ((FileSplit) inputSplit).getPath();
FileSystem fs = FileSystem.get(URI.create(path.toString()), attempt.getConfiguration()); //这里需要注意:由于fs.open的格式为file:///,而path获取的为HDFS的hdfs://XXXXX,因此需要在此进行转换
// FileSystem fs = FileSystem.get(attempt.getConfiguration());
FSDataInputStream fsStream = fs.open(path);
reader = new BufferedReader(new InputStreamReader(fsStream), 1024 * 100);
while ((line = reader.readLine()) != null) {
if (line.startsWith("Id:")) {
break;
}
}
} // define key and value
@Override
public boolean nextKeyValue() throws IOException, InterruptedException {
// TODO Auto-generated method stub
currentLineData = new StringBuffer();
count++;
boolean readingreview = false;
while ((line = reader.readLine()) != null) {
if(line.trim().length() == 0){
value = new Text(currentLineData.toString());
return true;
}
else {
if (readingreview) { Matcher matcher = pattern1.matcher(line);
if(matcher.matches())
{
currentLineData.append("review=").append(matcher.group(2)).append("|")
.append(matcher.group(3)).append("|")
.append(matcher.group(4)).append("|")
.append(matcher.group(5)).append("#");
}
else{
System.out.println("review "+ line + "does not match");
}
} else {
int indexOf = line.indexOf(":");
if(indexOf > 0){
String key = line.substring(0,indexOf).trim();
String value = line.substring(indexOf+1).trim();
if(value == null || value.length() == 0){
continue;
}
if(value.indexOf("#") > 0){
value = value.replaceAll("#", "_");
} if(key.equals("ASIN") || key.equals("Id") || key.equals("title") || key.equals("group") || key.equals("salesrank")){
if(key.equals("ASIN")){
this.key = new Text(value);
}
currentLineData.append(key).append("=").append(value.replaceAll(",", "")).append("#");
}else if(key.equals("similar")){
String[] tokens = value.split("\\s+");
//yes we skip the first one
if(tokens.length >= 2){
currentLineData.append(key).append("=");
for(int i=1;i<tokens.length;i++){
currentLineData.append(tokens[i].trim()).append("|");
}
currentLineData.append("#");
}
}else if( key.equals("reviews")){
readingreview = true;
}
}
}
} }
return false;
} @Override
public Text getCurrentKey() throws IOException, InterruptedException {
return key;
} @Override
public Text getCurrentValue() throws IOException, InterruptedException {
return value;
} @Override
public float getProgress() throws IOException, InterruptedException {
return count;
} @Override
public void close() throws IOException {
reader.close();
}
}

Map和Reduce

代码Map中有对于Amazon元数据的方法,就不给出了。就是对input传入的value数据进行解析

package ren.snail;

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.List;
import java.util.Set; import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hdfs.tools.GetConf;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner; import ren.snail.AmazonCustomer.ItemData; /**
* Find number of owner and replies received by each thread
* @author Srinath Perera (hemapani@apache.org)
*/
public class Main extends Configured implements Tool {
public static SimpleDateFormat dateFormatter = new SimpleDateFormat("EEEE dd MMM yyyy hh:mm:ss z"); public static class AMapper extends Mapper<Object, Text, Text, Text> { public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
//System.out.println(key + "="+ value);
try {
List<AmazonCustomer> customerList = AmazonCustomer.parseAItemLine(value.toString());
for(AmazonCustomer customer: customerList){
context.write(new Text(customer.customerID), new Text(customer.toString()));
//System.out.println(customer.customerID + "=" + customer.toString());
}
} catch (Exception e) {
e.printStackTrace();
System.out.println("Error:" +e.getMessage());
}
}
} public static class AReducer extends Reducer<Text, Text, IntWritable, Text> { public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
AmazonCustomer customer = new AmazonCustomer();
customer.customerID = key.toString(); for(Text value: values){
Set<ItemData> itemsBrought = new AmazonCustomer(value.toString()).itemsBrought;
for(ItemData itemData: itemsBrought){
customer.itemsBrought.add(itemData);
}
}
// if(customer.itemsBrought.size() > 5){
context.write(new IntWritable(customer.itemsBrought.size()), new Text(customer.toString()));
// }
}
} public static void main(String[] args) throws Exception {
int result = ToolRunner.run(new Configuration(), new Main(), args);
System.exit(result); } @Override
public int run(String[] arg0) throws Exception {
// TODO Auto-generated method stub Configuration configuration = getConf();
Job job = new Job(configuration, "MostFrequentUserFinder");
job.setJarByClass(Main.class);
job.setMapperClass(AMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
job.setOutputKeyClass(IntWritable.class);
job.setOutputValueClass(Text.class);
// Uncomment this to
// job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(AReducer.class);
job.setInputFormatClass(TestAmazonDataFormat.class);
FileInputFormat.addInputPath(job, new Path(arg0[0]));
FileOutputFormat.setOutputPath(job, new Path(arg0[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
return 0;
}
}

最终的输出如下:

customerID=A11NCO6YTE4BTJ,review=ASIN=0738700797#title=Candlemas: Feast of Flames#salesrank=168596#group=Book#rating=5#similar=0738700827|1567184960|1567182836|0738700525|0738700940|,

MapReduce实例-基于内容的推荐(一)的更多相关文章

  1. Recommender Systems基于内容的推荐

    基于内容的推荐的基本推荐思路是:用户喜欢幻想小说,这本书是幻想小说,则用户有可能喜欢这本小说 两方面要求:(1)知道用户的喜好:(2)知道物品的属性 基于内容的推荐相比协同过滤方法(个人观点):协同过 ...

  2. 新闻推荐系统:基于内容的推荐算法(Recommender System:Content-based Recommendation)

    https://blog.csdn.net/qq_32690999/article/details/77434381 因为开发了一个新闻推荐系统的模块,在推荐算法这一块涉及到了基于内容的推荐算法(Co ...

  3. elasticsearch使用More like this实现基于内容的推荐

    基于内容的推荐通常是给定一篇文档信息,然后给用户推荐与该文档相识的文档.Lucene的api中有实现查询文章相似度的接口,叫MoreLikeThis.Elasticsearch封装了该接口,通过Ela ...

  4. 推荐系统第5周--- 基于内容的推荐,隐语义模型LFM

    基于内容的推荐

  5. ElasticSearch java API-使用More like this实现基于内容的推荐

    ElasticSearch java API-使用More like this实现基于内容的推荐 基于内容的推荐通常是给定一篇文档信息,然后给用户推荐与该文档相识的文档.Lucene的api中有实现查 ...

  6. 【T-BABY 夜谈大数据】基于内容的推荐算法

    这个系列主要也是自己最近在研究大数据方向,所以边研究.开发也边整理相关的资料.网上的资料经常是碎片式的,如果要完整的看完可能需要同时看好几篇文章,所以我希望有兴趣的人能够更轻松和快速地学习相关的知识. ...

  7. C# 基于内容电影推荐项目(一)

    从今天起,我将制作一个电影推荐项目,在此写下博客,记录每天的成果. 其实,从我发布 C# 爬取猫眼电影数据 这篇博客后, 我就已经开始制作电影推荐项目了,今天写下这篇博客,也是因为项目进度已经完成50 ...

  8. 基于内容的推荐 java实现

    这是本人在cousera上学习机器学习的笔记,不能保证其正确性,慎重參考 看完这一课后Content Based Recommendations 后自己用java实现了一下 1.下图是待处理的数据,代 ...

  9. Recommending music on Spotify with deep learning 采用深度学习算法为Spotify做基于内容的音乐推荐

    本文参考http://blog.csdn.net/zdy0_2004/article/details/43896015译文以及原文file:///F:/%E6%9C%BA%E5%99%A8%E5%AD ...

随机推荐

  1. 对TabControl的简单优化

    之前由于忙于赶项目进度而忽视了软件的用户体验,界面挺难看,有一天看见组长优化了某个窗体,让人感觉完全不一样,我也不甘示弱,要把我的程序做顺眼一点才行.我的程序是一个以TabControl为主要容器的窗 ...

  2. 登录校验(demo)

    1. 登录流程分析图: 2. 登录demo:

  3. GitHub上下载源代码的方法

    GitHub上找到自己要下载的项目以后,有3种方法可以下载源代码. 第一种是复制该项目的地址,然后用其他软件下载: 第二种是安装了官方客户端,可以直接点击"Clone in Desktop& ...

  4. Firemonkey TComboBox 下拉菜单字型修改方法 (D10)

    在 FMX 下的 TComboBox 下拉菜单字型修改有二种方法: uses FMX.Pickers; 使用 Style,需先设定好 Style 后,再指定预设项的 Style,方法如下: proce ...

  5. Oracle数据库,join多表关联方式、union结果集合并

    join on :   多表关联 内连接 :与其他表连接 from 表1 t join 表2 s on t.字段1 =s.字段2 join 表3 n on n.字段3=t.字段1 或 from 表1 ...

  6. [java] StringBuilder / StringBuffer / String 建立字符串

    1.三者在建立新字符串速度方面的比较: StringBuilder >  StringBuffer  >  String 2.线程安全性: StringBuilder:线程非安全的 Str ...

  7. Spring之AntPathMatcher

    前言 AntPathMatcher是什么?主要用来解决什么问题? 背景:在做uri匹配规则发现这个类,根据源码对该类进行分析,它主要用来做类URLs字符串匹配: 效果 可以做URLs匹配,规则如下 ? ...

  8. python中的argparse

    argparse是python用于解析命令行参数和选项的标准模块,用于代替已经过时的optparse模块.argparse模块的作用是用于解析命令行参数. 最基础的,从一个最简单的程序开始: impo ...

  9. AspectJ对AOP的实现

    一:你应该明白的知识 1.对于AOP这种编程思想,很多框架都进行了实现.Spring就是其中之一,可以完成面向切面编程.然而,AspectJ也实现了AOP的功能,且实现方式更为简捷,使用更加方便,而且 ...

  10. java web学习总结(一) -------------------基本概念

    一.基本概念 1.1.WEB开发的相关知识 WEB,在英语中web即表示网页的意思,它用于表示Internet主机上供外界访问的资源. Internet上供外界访问的Web资源分为: 静态web资源( ...