Mahout实战---编写自己的相似度计算方法
Mahout本身提供了很多的相似度计算方法,如PCC,COS等。但是当需要验证自己想出来的相似度计算公式是否是好的,这时候需要自己实现相似度类。研究了Mahout-core-0.9.jar的源码后,自己实现了一篇论文上面的相似度公式。:
论文题目:An effective collaborative filtering algorithm based on user preference clustering
具体公式如下:

实现过程:具体实现参考了LogLikeHoodSimilarity类的实现
1,实现org.apache.mahout.cf.taste.similarity.UserSimilarity接口
该接口有三个方法:
public interface UserSimilarity extends Refreshable {
double userSimilarity(long userID1, long userID2) throws TasteException;
void setPreferenceInferrer(PreferenceInferrer inferrer);
void refresh(Collection<Refreshable> alreadyRefreshed);//是Refreshable的方法
}
2,void refresh(Collection<Refreshable> alreadyRefreshed);
该方法用于刷新组件(Mahout对于数据改变的时候做出的应对方法。《Mahout实战》中3.2.3节可刷新组件中提到);具体实现如下:
public void refresh(Collection<Refreshable> alreadyRefreshed) {
// TODO Auto-generated method stub
alreadyRefreshed = RefreshHelper.buildRefreshed(alreadyRefreshed);
RefreshHelper.maybeRefresh(alreadyRefreshed, getDataModel());
}
3,void setPreferenceInferrer(PreferenceInferrer inferrer);
这个方法我没有实现,它的作用:可以通过PreferenceInferrer 得到对未打分项的预测评分。
4,double userSimilarity(long userID1, long userID2) throws TasteException;
该方法需要根据公式实现:计算user1和user2的相似度。
在这之前需要传递一个DataModel进来(定义成类的成员变量,由构造函数传递进来)。
具体实现如下:
/**
* 实现该方法即实现了相似度计算方法
*/
public double userSimilarity(long userID1, long userID2) throws TasteException {
// TODO Auto-generated method stub
DataModel dataModel = getDataModel();
//获取用户打分项的id集合
FastIDSet prefs1 = dataModel.getItemIDsFromUser(userID1);
FastIDSet prefs2 = dataModel.getItemIDsFromUser(userID2); long prefs1Size = prefs1.size();
long prefs2Size = prefs2.size(); /*
* long intersectionSize = prefs1Size < prefs2Size ?
* prefs2.intersectionSize(prefs1) : prefs1.intersectionSize(prefs2);
*/
// 计算交集的大小和产生新的FastIDSet作为交集
FastIDSet pre_a, pre_b;// a为大的集合
FastIDSet pre_com = new FastIDSet();
if (prefs1Size < prefs2Size) {
pre_a = prefs2;
pre_b = prefs1;
} else {
pre_a = prefs1;
pre_b = prefs2;
}
int intersectionSize = 0;
Iterator<Long> iterator = pre_b.iterator();
while (iterator.hasNext()) {
long type = (long) iterator.next();
if (pre_a.contains(type)) { pre_com.add(type);
}
}
intersectionSize = pre_com.size();
// 如果交集为0,则相似度为0
if (intersectionSize == 0) {
return 0;
}
// 计算并集的大小
long unionSize = unionSize(pre_a, pre_b); // 计算userID1的平均打分
float avg_1 = avgPreferences(userID1, prefs1);
// 计算userID2的平均打分
float avg_2 = avgPreferences(userID2, prefs2); // 计算共同打分项的打分差的和
double sum = 0.0;
iterator = pre_com.iterator();
while (iterator.hasNext()) {
long itemID = iterator.next();
sum += Math
.abs(dataModel.getPreferenceValue(userID1, itemID) - dataModel.getPreferenceValue(userID2, itemID));
}
return Math.exp(-((sum * 1.0) / intersectionSize) * Math.abs(avg_1 - avg_2))
* ((intersectionSize * 1.0) / unionSize);
}
/**
* FastIDSet只实现了intersectionSize(求交集), 现实现求并
*/
private int unionSize(FastIDSet a, FastIDSet b) {
int count = a.size();
Iterator<Long> iterator = b.iterator();
while (iterator.hasNext()) {
long type = (long) iterator.next();
if (!a.contains(type)) {
count++;
}
}
return count;
} /**
* 计算用户的打分平均值
*
* @throws TasteException
*/
private float avgPreferences(long userID, FastIDSet set) throws TasteException {
float score = (float) 0.0;
Iterator<Long> iterator = set.iterator();
while (iterator.hasNext()) {
long type = (long) iterator.next();
score += dataModel.getPreferenceValue(userID, type);
}
return score / set.size();
}
5,测试实现的正确性
根据论文的测试数据对实现的正确性进行测试

生成ups.csv
1,101,1.0
1,102,2.0
1,104,3.0
1,105,2.0
1,107,2.0 2,101,2.0
2,102,4.0
2,103,4.0
2,105,4.0
2,108,2.0
2,109,3.0 3,101,5.0
3,102,5.0
3,104,4.0
3,106,4.0
3,107,3.0
3,109,4.0 4,101,5.0
4,103,5.0
4,104,4.0
4,105,4.0
4,107,4.0
4,108,4.0 5,101,1.0
5,105,2.0
5,109,2.0
测试程序如下:
public class UPSTest {
public static void main(String[] args) throws IOException, TasteException {
String projectDir = System.getProperty("user.dir");
DataModel model = new FileDataModel(new File(projectDir + "/src/main/ups.csv"));
UserSimilarity similarity = new UPSSimiliarity(model);
DecimalFormat df = new DecimalFormat("#,##0.0000");// 保留4位小数
System.out.println(df.format(similarity.userSimilarity(1, 2)));
System.out.println(df.format(similarity.userSimilarity(1, 3)));
System.out.println(df.format(similarity.userSimilarity(1, 4)));
System.out.println(df.format(similarity.userSimilarity(1, 5)));
System.out.println(df.format(similarity.userSimilarity(2, 3)));
System.out.println(df.format(similarity.userSimilarity(2, 4)));
System.out.println(df.format(similarity.userSimilarity(2, 5)));
System.out.println(df.format(similarity.userSimilarity(3, 4)));
System.out.println(df.format(similarity.userSimilarity(3, 5)));
System.out.println(df.format(similarity.userSimilarity(4, 5)));
}
}
运行结果如下:

与论文中的结果基本相同:

参考 论文:[1] Zhang, Jia, et al. "An effective collaborative filtering algorithm based on user preference clustering." Applied Intelligence (2016): 1-11.
[2] Mahout实战
Mahout实战---编写自己的相似度计算方法的更多相关文章
- hadoop Mahout中相似度计算方法介绍(转)
来自:http://blog.csdn.net/samxx8/article/details/7691868 相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类 ...
- 《mahout实战》
<mahout实战> 基本信息 原书名:Mahout in action 作者: (美)Sean Owen Robin Anil Ted Dunning Ellen Fr ...
- Mahout实战---运行第一个推荐引擎
创建输入 创建intro.csv文件,内容如下 1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,102,2.5 2,103,5.0 2,104,2.0 3,101, ...
- Mahout实战---评估推荐程序
推荐程序的一般评测标准有MAE(平均绝对误差),Precision(查准率),recall(查全率) 针对Mahout实战---运行第一个推荐引擎 的推荐程序,将使用上面三个标准分别测量 MAE(平均 ...
- Mahout的taste里的几种相似度计算方法
欧几里德相似度(Euclidean Distance) 最初用于计算欧几里德空间中两个点的距离,以两个用户x和y为例子,看成是n维空间的两个向量x和y, xi表示用户x对itemi的喜好值,yi表示 ...
- Dapr 与 NestJs ,实战编写一个 Pub & Sub 装饰器
Dapr 是一个可移植的.事件驱动的运行时,它使任何开发人员能够轻松构建出弹性的.无状态和有状态的应用程序,并可运行在云平台或边缘计算中,它同时也支持多种编程语言和开发框架.Dapr 确保开发人员专注 ...
- 大规模向量相似度计算方法(Google在07年发表的文章)
转载请注明出处:http://www.cnblogs.com/zz-boy/p/3648878.html 更多精彩文章在:http://www.cnblogs.com/zz-boy/ 最近看了Goog ...
- McCabe环路复杂度计算方法
环路复杂度用来定量度量程序的逻辑复杂度.以McCabe方法来表示. 在程序控制流程图中,节点是程序中代码的最小单元,边代表节点间的程序流.一个有e条边和n个节点的流程图F,可以用下述3种方法中的任何一 ...
- 专项测试实战 | 如何测试 App 流畅度(基于 FPS 和丢帧率)
本文为霍格沃兹测试学院学员学习笔记. FPS 和丢帧率可以在一定程度上作为 APP 流畅度的一项衡量标准,本文介绍利用 adb shell dumpsys gfxinfo 命令获取软件渲染加载过程的数 ...
随机推荐
- 重复 桂林电子科技大学第三届ACM程序设计竞赛
题目链接:https://ac.nowcoder.com/acm/contest/558/B import java.util.HashSet; import java.util.Scanner; p ...
- 软件工程 wc.exe 代码统计作业
软件工程 wc.exe 代码统计作业分享 1. Github 项目地址 https://github.com/EdwardLiu-Aurora/WordCount 更好地阅读本文,可点击这里 基本要求 ...
- JavaOperator小框架制作【精品博客】
以下是运算小框架的制作过程,以及核心代码,完成(计算,监听,回馈等): package com.demo2.operator; /** * 运算标准接口 * @author Liudeli */ pu ...
- 测试一下你的T-SQL基础知识-count
下面count的返回值是多少? ) ); GO INSERT mytable ( myid, mychar ) VALUES ( , 'A' ), ( , 'B'), ( NULL, 'C' ), ( ...
- Spring Boot 2 实践记录之 MySQL + MyBatis 配置
如果不需要连接池,那么只需要简单的在pom文件中,添加mysql依赖: <dependency> <groupId>mysql</groupId> <arti ...
- bootstrap实现左侧图片右侧文字布局
效果图 代码 通过class="media-left"来控制相对位置 <!DOCTYPE html> <html> <head lang=" ...
- 学习sqlserve的一些笔记
创建表: create table 表名 { //定义列名 id ,) primary key,//自动编号:从1开始每次增长1,约束:主键约束 name ) not null //非空约束 } 表数 ...
- NET 下载共享文件
执行 public static void Run() { "); if (state) { // 共享文件夹的目录 TransportRemoteToLocal(@"\\192. ...
- poj 3250 Bad Hair Day(栈的运用)
http://poj.org/problem?id=3250 Bad Hair Day Time Limit: 2000MS Memory Limit: 65536K Total Submissi ...
- 689. Maximum Sum of 3 Non-Overlapping Subarrays
In a given array nums of positive integers, find three non-overlapping subarrays with maximum sum. E ...