编译最近的协同过滤算法皮尔逊相似度计算。下顺便研究R简单使用的语言。概率统计知识。
一、概率论和统计学概念复习

1)期望值(Expected Value)
由于这里每一个数都是等概率的。所以就当做是数组或向量中全部元素的平均数吧。能够使用R语言中函数mean()。
2)方差(Variance)
方差分为population variance整体方差和sample variance样本方差,差别是整体方差除以N,样本方差除以N-1。

数理统计中经常使用样本方差,R语言的var()函数计算的也是样本方差。

详细原因是样本方差是无偏的(Unbiased),想刨根问底能够Google一下。

3)标准差(Standard Variance)
非常easy。标准差就是方差的平方根。

R语言中函数为sd()。

4)协方差(Covariance)
也分成整体协方差和样本协方差,差别同上。

R语言中函数为cov()。注意向量中有空元素(NA)时,比如稀疏矩阵中的一行,则要cov(x,y, use='complete')。

方差也能够看做是协方差的特例。也就是:var(x)=cov(x,x)。
这里仅仅列举了计算公式。看着有些头晕,详细还是看以下样例吧。一看就懂了。
二、类似度计算在协同过滤推荐算法中的地位

在协同过滤推荐算法中,无论是基于用户(User-based)还是基于物品(Item-based),都要通过计算用户或物品间的类似度,得到离线模型(训练学习过程)。
之后再利用排序和加权算法得到终于的推荐物品Top-N列表。

不同类似度算法的选择对终于推荐结果会产生非常大的影响。

1)余弦类似度(Cosine-based Similiarity)
2)相关性类似度(Correlation-based Similiarity)
这样的类似度计算使用的算法就是皮尔森。
3)修正余弦类似度(Adjusted Cosine-based Similiarity)
三、R语言入门简单介绍

Windows下的R语言安装包地址为:http://cran.r-project.org/bin/windows/base/
下载exe后直接安装后,执行交互控制台就能够使用了。

经常使用的函数都能够从网上中查找到:http://jiaoyan.org/r/?page_id=4100
要习惯的一点是。R语言的表达方式,比如在控制台输入:
> x<-c(1:10)
> x-mean(x)
[1] -4.5 -3.5 -2.5 -1.5 -0.5  0.5  1.5  2.5  3.5  4.5
x-mean(x)的含义是都向量x中每一个元素都减去x的平均数mean(x),能够说这样的表达方式高度抽象化。表现力非常强。

之后我们能够用其它函数对计算结果进行聚合:
> sum(x-mean(x))
[1] 0
四、皮尔森类似度(Pearson Similiarity)计算举例

以下以还有一篇文章中的用户-物品关系为例,说明一下皮尔森类似度的计算过程。

皮尔森类似度的原始计算公式为: 

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZGNfNzI2/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />,不继续展开化简。

1)定义用户数组(向量)
user1<-c(5.0, 3.0, 2.5)
user5<-c(4.0, 3.0, 2.0)
2)计算方差
var(user1)=sum((user1-mean(user1))^2)/(3-1)=1.75
var(user2)=sum((user5-mean(user5))^2)/(3-1)=1
3)计算标准差
sd(user1)=sqrt(var(user1))=1.322876
sd(user5)=sqrt(var(user5))=1
4)计算协方差
cov(user1, user5)
=sum((user1-mean(user1))*(user5-mean(user5)))/(3-1)
=1.25
5)计算类似度
cor(user1, user5)
=cov(user1, user5) / (sd(user1)*(sd(user5)))
=0.9449112
五、数学特性和存在问题

以下1)和2)整理自维基百科:
1)代数特性
皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X 和 Y能够非常好的由直线方程来描写叙述。全部的数据点都非常好的落在一条 直线上,且 Y 随着 X 的添加而添加。

系数的值为−1意味着全部的数据点都落在直线上,且 Y 随着 X 的添加而降低。

系数的值为0意味着两个变量之间没有线性关系。

因两个变量的位置和尺度的变化并不会引起该系数的改变。即它该变化的不变量 (由符号确定)。

也就是说,我们假设把X移动到a + bX和把Y移动到c + dY,当中a、b、c和d是常数。

并不会改变两个变量的相关系数(该结论在整体和样本皮尔逊相关系数中都成立)。我们发现更一般的线性变换则会改变相关系数。

2)几何学含义
对于没有中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。

对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也能够被视作由两个随机变量 向量 夹角theta 的余弦值(见下方)。

3)存在问题
这也就是为什么会导致User1和User4更为类似的原因了,虽然User4仅仅对Item101和103评分,可是这两个评分形成的直线与User1形成的直线趋势更为接近。

同一时候还有一个问题是,假设一些几何变换不会影响相关系数,则评分的高低也被忽略掉了,仅仅是分数的趋潜在影响。当然,这是对于矩阵0和1用户-购买的物品矩阵没有效果。

版权声明:本文博主原创文章。博客,未经同意不得转载。

皮尔逊相似度计算的例子(R语言)的更多相关文章

  1. np.corrcoef()方法计算数据皮尔逊积矩相关系数(Pearson's r)

    上一篇通过公式自己写了一个计算两组数据的皮尔逊积矩相关系数(Pearson's r)的方法,但np已经提供了一个用于计算皮尔逊积矩相关系数(Pearson's r)的方法 np.corrcoef()  ...

  2. pandas通过皮尔逊积矩线性相关系数(Pearson's r)计算数据相关性

    皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子: a = pd.Series([1,2,3,4,5,6,7,8,9,10]) b = pd.Series( ...

  3. Pearson(皮尔逊)相关系数及MATLAB实现

    转自:http://blog.csdn.net/wsywl/article/details/5727327 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数. 相关系数:考察 ...

  4. Pearson(皮尔逊)相关系数

    Pearson(皮尔逊)相关系数:也叫pearson积差相关系数.衡量两个连续变量之间的线性相关程度. 当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数, ...

  5. 皮尔逊(Pearson)系数矩阵——numpy

    一.原理 注意 专有名词.(例如:极高相关) 二.代码 import numpy as np f = open('../file/Pearson.csv', encoding='utf-8') dat ...

  6. Spark Mllib里的如何对两组数据用皮尔逊计算相关系数

    不多说,直接上干货! import org.apache.spark.mllib.stat.Statistics 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mlli ...

  7. Python基于皮尔逊系数实现股票预测

    # -*- coding: utf-8 -*- """ Created on Mon Dec 2 14:49:59 2018 @author: zhen "&q ...

  8. 从欧几里得距离、向量、皮尔逊系数到http://guessthecorrelation.com/

    一.欧几里得距离就是向量的距离公式 二.皮尔逊相关系数反应的就是线性相关 游戏http://guessthecorrelation.com/ 的秘诀也就是判断一组点的拟合线的斜率y/x ------- ...

  9. 皮尔逊残差 | Pearson residual

    参考:Pearson Residuals 这些概念到底是写什么?怎么产生的? 统计学功力太弱了!

随机推荐

  1. win 开机 Microsoft corparation 滚动栏

    在easybcd里设置  后保存!

  2. sql语句查询数据库中的表名/列名/主键/自动增长值

    原文地址:http://blog.csdn.net/pukuimin1226/article/details/7687538 ----查询数据库中用户创建的表 ----jsj01 为数据库名 sele ...

  3. C#之异步编程

    1 异步编程的重要性 C#5.0最重要的改进是提供了更强大的异步编程,C#5.0仅增加两个关键字Async和Await,使用异步编程,方法调用是后台运行(通常在线程和任务的帮助下),并且不会阻塞调用线 ...

  4. 如何通过shell脚本操作MongoDB

    通过shell脚本对MongoDB进行自动化操作 运行写好的 ./show.sh 脚本 发现能够建立mongo链接 #!/bin/sh mongo WordPress --eval "sho ...

  5. OCP-1Z0-051-题目解析-第30题

    30. Evaluate the following CREATE TABLE commands: CREATE TABLE orders (ord_no NUMBER(2) CONSTRAINT o ...

  6. jstack(查看线程)、jmap(查看内存)和jstat(性能分析)命令

    jstack(查看线程).jmap(查看内存)和jstat(性能分析)命令   公司内部同事分享的一篇文章 周末看到一个用jstack查看死锁的例子.昨天晚上总结了一下jstack(查看线程).jma ...

  7. Acquire and Release Semantics

    An operation has acquire semantics if other processors will always see its effect before any subsequ ...

  8. 部署 Redis 群集

    Windows 部署 Redis 群集   1,下载Redis for windows 的最新版本,解压到 c:\Redis 目录下备用https://github.com/MSOpenTech/re ...

  9. ImageButton消除使用setImageDrawable造成的边框问题。

    使用ImageButton的时候,如果使用setBackgroundDrawable设置图片,会对可点击范围有影响,使用setImageDrawable方法设置图片,图片小的话,可以会有,这种有白色边 ...

  10. Leetcode: Spiral Matrix. Java

    Given a matrix of m x n elements (m rows, n columns), return all elements of the matrix in spiral or ...