皮尔森相似度计算举例(R语言)

整理了一下最近对协同过滤推荐算法中的皮尔森相似度计算，顺带学习了下R语言的简单使用，也复习了概率统计知识。

一、概率论和统计学概念复习

1）期望值（Expected Value）

因为这里每个数都是等概率的，所以就当做是数组或向量中所有元素的平均数吧。可以使用R语言中函数mean()。

2）方差（Variance）

方差分为population variance总体方差和sample variance样本方差，区别是总体方差除以N，样本方差除以N-1。

数理统计中常用样本方差，R语言的var()函数计算的也是样本方差。具体原因是样本方差是无偏的（Unbiased），想刨根问底可以Google一下。

3）标准差（Standard Variance）

很简单，标准差就是方差的平方根。R语言中函数为sd()。

4）协方差（Covariance）

，

也分成总体协方差和样本协方差，区别同上。R语言中函数为cov()。注意向量中有空元素（NA）时，例如稀疏矩阵中的一行，则要cov(x,y, use='complete')。

方差也可以看做是协方差的特例，也就是：var(x)=cov(x,x)。

这里只列举了计算公式，看着有些头晕，具体还是看下面例子吧，一看就懂了。

二、相似度计算在协同过滤推荐算法中的地位

在协同过滤推荐算法中，不管是基于用户（User-based）还是基于物品（Item-based），都要通过计算用户或物品间的相似度，得到离线模型（训练学习过程）。

之后再利用排序和加权算法得到最终的推荐物品Top-N列表。不同相似度算法的选择对最终推荐结果会产生很大的影响。

1）余弦相似度（Cosine-based Similiarity）

2）相关性相似度（Correlation-based Similiarity）

这种相似度计算使用的算法就是皮尔森。

3）修正余弦相似度（Adjusted Cosine-based Similiarity）

三、R语言入门简介

Windows下的R语言安装包地址为：http://cran.r-project.org/bin/windows/base/

下载exe后直接安装后，运行交互控制台就可以使用了。

常用的函数都可以从网上中查找到：http://jiaoyan.org/r/?page_id=4100

要习惯的一点是，R语言的表达方式，例如在控制台输入：

> x<-c(1:10)

> x-mean(x)
[1] -4.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 4.5

x-mean(x)的含义是都向量x中每个元素都减去x的平均数mean(x)，可以说这种表达方式高度抽象化，表现力很强。

之后我们可以用其他函数对计算结果进行聚合：

> sum(x-mean(x))

[1] 0

四、皮尔森相似度(Pearson Similiarity)计算举例

下面以另一篇文章中的用户-物品关系为例，说明一下皮尔森相似度的计算过程。

皮尔森相似度的原始计算公式为：

，不继续展开化简。

1）定义用户数组（向量）

user1<-c(5.0, 3.0, 2.5)

user5<-c(4.0, 3.0, 2.0)

2）计算方差

var(user1)=sum((user1-mean(user1))^2)/(3-1)=1.75

var(user2)=sum((user5-mean(user5))^2)/(3-1)=1

3）计算标准差

sd(user1)=sqrt(var(user1))=1.322876

sd(user5)=sqrt(var(user5))=1

4）计算协方差

cov(user1, user5)

=sum((user1-mean(user1))*(user5-mean(user5)))/(3-1)

=1.25

5）计算相似度

cor(user1, user5)

=cov(user1, user5) / (sd(user1)*(sd(user5)))

=0.9449112

五、数学特性和存在问题

以下1）和2）整理自维基百科：

1）代数特性

皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着X 和 Y可以很好的由直线方程来描述，所有的数据点都很好的落在一条直线上，且 Y 随着 X 的增加而增加。

系数的值为−1意味着所有的数据点都落在直线上，且 Y 随着 X 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

因两个变量的位置和尺度的变化并不会引起该系数的改变，即它该变化的不变量 (由符号确定)。也就是说，我们如果把X移动到a + bX和把Y移动到c + dY，其中a、b、c和d是常数，

并不会改变两个变量的相关系数（该结论在总体和样本皮尔逊相关系数中都成立）。我们发现更一般的线性变换则会改变相关系数。

2）几何学含义

对于没有中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。
对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量向量夹角theta 的余弦值（见下方）。

3）存在问题

这也就是为什么会导致User1和User4更为相似的原因了，尽管User4只对Item101和103评分，但是这两个评分形成的直线与User1形成的直线趋势更为接近。

同时另一个问题是，如果一些几何变换不会影响相关系数，则评分的高低也被忽略掉了，只是分数的趋势会影响。当然这对于矩阵中都是0和1的用户-物品购买矩阵没有什么影响。

皮尔森相似度计算举例(R语言)的更多相关文章

统计计算与R语言的资料汇总（截止2016年12月）
本文在Creative Commons许可证下发布. 在fedora Linux上断断续续使用R语言过了9年后,发现R语言在国内用的人逐渐多了起来.由于工作原因,直到今年暑假一个赴京工作的机会与一位统 ...
R语言的导数计算（转）
转自:http://blog.fens.me/r-math-derivative/ 前言高等数学是每个大学生都要学习的一门数学基础课,同时也可能是考完试后最容易忘记的一门知识.我在学习高数的时候绞尽 ...
数据分析与R语言
数据结构创建向量和矩阵函数c(), length(), mode(), rbind(), cbind() 求平均值,和,连乘,最值,方差,标准差函数mean(), sum(), min(), m ...
数据分析，R语言
数据结构创建向量和矩阵 1 函数c(), length(), mode(), rbind(), cbind() 求平均值,和,连乘,最值,方差,标准差 1 函数mean(), sum(), min( ...
R 语言实现求导
前言高等数学是每个大学生都要学习的一门数学基础课,同时也可能是考完试后最容易忘记的一门知识.我在学习高数的时候绞尽脑汁,但始终都不知道为何而学.生活和工作基本用不到,就算是在计算机行业和金融行业,能 ...
皮尔逊相似度计算的例子(R语言)
编译最近的协同过滤算法皮尔逊相似度计算.下顺便研究R简单使用的语言.概率统计知识. 一.概率论和统计学概念复习 1)期望值(Expected Value) 由于这里每一个数都是等概率的.所以就当做是数 ...
[R语言]R语言计算unix timestamp的坑
R+mongo的组合真是各种坑等着踩由于mongo中的时间戳普遍使用的是unix timestamp的格式,因此需要对每天的数据进行计算的时候,很容易就想到对timestamp + gap对方式来实 ...
.net 调用R语言的函数（计算统计值pvalue 对应excel :ttest）
Pvalue 计算项目设计pvalue计算,但是由于.net 没有类似的公式或者函数,最终决定使用.net 调用R语言采用.net 调用r语言的公用函数需要安装 r语言环境 https://mi ...
使用R语言-计算均值，方差等
R语言对于数值计算很方便,最近用到了计算方差,标准差的功能,特记录. 数据准备 height <- c(6.00, 5.92, 5.58, 5.92) 1 计算均值 mean(height) [ ...

随机推荐

●POJ 2794 Double Patience
题链: http://poj.org/problem?id=2794题解: 状压DP,概率 9元组表示每一堆还剩几张牌.可以用5进制状压,共5^9=1953124个状态. 令P(S)表示S这个状态被取 ...
[Baltic2004]sequence
题目描述: 给定一个序列t1,t2,...,tn ,求一个递增序列z1<z2<...<zn , 使得R=|t1−z1|+|t2−z2|+...+|tn−zn| 的值最小.本题中,我们 ...
bzoj1071[SCOI2007]组队
1071: [SCOI2007]组队 Time Limit: 3 Sec Memory Limit: 128 MBSubmit: 2472 Solved: 792[Submit][Status][ ...
poj1753 高斯消元
Flip Game Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 37055 Accepted: 16125 Descr ...
bzoj3786星系探索 splay
3786: 星系探索 Time Limit: 40 Sec Memory Limit: 256 MBSubmit: 1314 Solved: 425[Submit][Status][Discuss ...
Java 反射 Method threw 'java.lang.InstantiationException' exception.
查看这个InstantiationException:异常的api所说的是: 当应用程序试图使用 Class 类中的 newInstance 方法创建一个类的实例,而指定的类对象无法被实例化时,抛出该 ...
mac下怎么删除隐藏文件比如 .Trashes文件
U盘和移动硬盘接入Mac时会产生.Trashes,.Spotlight-V100,.fseventsd等文件每插入Mac一次,都会检查是否有这些文件,如果没有,就会创建这些文件特别是有时候,在文件 ...
Jackson工具
Jackson Jackson包含一个core JAR,和两个依赖core JAR的JAR: jackson-core-2.2.3.jar(核心jar包,下载地址) jackson-annotatio ...
jsp&servlet初体验——用户登录功能实现
数据库准备-创建db_login数据库 t_user表 1.创建web工程 2.创建用户model user.java package com.gxy.model; public class U ...
Spring中@Transactional事务回滚（含实例详细讲解，附源码）
一.使用场景举例在了解@Transactional怎么用之前我们必须要先知道@Transactional有什么用.下面举个栗子:比如一个部门里面有很多成员,这两者分别保存在部门表和成员表里面,在删除 ...

皮尔森相似度计算举例(R语言)

皮尔森相似度计算举例(R语言)的更多相关文章

随机推荐

热门专题