编译最近的协同过滤算法皮尔逊相似度计算。下顺便研究R简单使用的语言。概率统计知识。
一、概率论和统计学概念复习

1)期望值(Expected Value)
由于这里每一个数都是等概率的。所以就当做是数组或向量中全部元素的平均数吧。能够使用R语言中函数mean()。
2)方差(Variance)
方差分为population variance整体方差和sample variance样本方差,差别是整体方差除以N,样本方差除以N-1。

数理统计中经常使用样本方差,R语言的var()函数计算的也是样本方差。

详细原因是样本方差是无偏的(Unbiased),想刨根问底能够Google一下。

3)标准差(Standard Variance)
非常easy。标准差就是方差的平方根。

R语言中函数为sd()。

4)协方差(Covariance)
也分成整体协方差和样本协方差,差别同上。

R语言中函数为cov()。注意向量中有空元素(NA)时,比如稀疏矩阵中的一行,则要cov(x,y, use='complete')。

方差也能够看做是协方差的特例。也就是:var(x)=cov(x,x)。
这里仅仅列举了计算公式。看着有些头晕,详细还是看以下样例吧。一看就懂了。
二、类似度计算在协同过滤推荐算法中的地位

在协同过滤推荐算法中,无论是基于用户(User-based)还是基于物品(Item-based),都要通过计算用户或物品间的类似度,得到离线模型(训练学习过程)。
之后再利用排序和加权算法得到终于的推荐物品Top-N列表。

不同类似度算法的选择对终于推荐结果会产生非常大的影响。

1)余弦类似度(Cosine-based Similiarity)
2)相关性类似度(Correlation-based Similiarity)
这样的类似度计算使用的算法就是皮尔森。
3)修正余弦类似度(Adjusted Cosine-based Similiarity)
三、R语言入门简单介绍

Windows下的R语言安装包地址为:http://cran.r-project.org/bin/windows/base/
下载exe后直接安装后,执行交互控制台就能够使用了。

经常使用的函数都能够从网上中查找到:http://jiaoyan.org/r/?page_id=4100
要习惯的一点是。R语言的表达方式,比如在控制台输入:
> x<-c(1:10)
> x-mean(x)
[1] -4.5 -3.5 -2.5 -1.5 -0.5  0.5  1.5  2.5  3.5  4.5
x-mean(x)的含义是都向量x中每一个元素都减去x的平均数mean(x),能够说这样的表达方式高度抽象化。表现力非常强。

之后我们能够用其它函数对计算结果进行聚合:
> sum(x-mean(x))
[1] 0
四、皮尔森类似度(Pearson Similiarity)计算举例

以下以还有一篇文章中的用户-物品关系为例,说明一下皮尔森类似度的计算过程。

皮尔森类似度的原始计算公式为: 

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZGNfNzI2/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />,不继续展开化简。

1)定义用户数组(向量)
user1<-c(5.0, 3.0, 2.5)
user5<-c(4.0, 3.0, 2.0)
2)计算方差
var(user1)=sum((user1-mean(user1))^2)/(3-1)=1.75
var(user2)=sum((user5-mean(user5))^2)/(3-1)=1
3)计算标准差
sd(user1)=sqrt(var(user1))=1.322876
sd(user5)=sqrt(var(user5))=1
4)计算协方差
cov(user1, user5)
=sum((user1-mean(user1))*(user5-mean(user5)))/(3-1)
=1.25
5)计算类似度
cor(user1, user5)
=cov(user1, user5) / (sd(user1)*(sd(user5)))
=0.9449112
五、数学特性和存在问题

以下1)和2)整理自维基百科:
1)代数特性
皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X 和 Y能够非常好的由直线方程来描写叙述。全部的数据点都非常好的落在一条 直线上,且 Y 随着 X 的添加而添加。

系数的值为−1意味着全部的数据点都落在直线上,且 Y 随着 X 的添加而降低。

系数的值为0意味着两个变量之间没有线性关系。

因两个变量的位置和尺度的变化并不会引起该系数的改变。即它该变化的不变量 (由符号确定)。

也就是说,我们假设把X移动到a + bX和把Y移动到c + dY,当中a、b、c和d是常数。

并不会改变两个变量的相关系数(该结论在整体和样本皮尔逊相关系数中都成立)。我们发现更一般的线性变换则会改变相关系数。

2)几何学含义
对于没有中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。

对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也能够被视作由两个随机变量 向量 夹角theta 的余弦值(见下方)。

3)存在问题
这也就是为什么会导致User1和User4更为类似的原因了,虽然User4仅仅对Item101和103评分,可是这两个评分形成的直线与User1形成的直线趋势更为接近。

同一时候还有一个问题是,假设一些几何变换不会影响相关系数,则评分的高低也被忽略掉了,仅仅是分数的趋潜在影响。当然,这是对于矩阵0和1用户-购买的物品矩阵没有效果。

版权声明:本文博主原创文章。博客,未经同意不得转载。

皮尔逊相似度计算的例子(R语言)的更多相关文章

  1. np.corrcoef()方法计算数据皮尔逊积矩相关系数(Pearson's r)

    上一篇通过公式自己写了一个计算两组数据的皮尔逊积矩相关系数(Pearson's r)的方法,但np已经提供了一个用于计算皮尔逊积矩相关系数(Pearson's r)的方法 np.corrcoef()  ...

  2. pandas通过皮尔逊积矩线性相关系数(Pearson's r)计算数据相关性

    皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子: a = pd.Series([1,2,3,4,5,6,7,8,9,10]) b = pd.Series( ...

  3. Pearson(皮尔逊)相关系数及MATLAB实现

    转自:http://blog.csdn.net/wsywl/article/details/5727327 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数. 相关系数:考察 ...

  4. Pearson(皮尔逊)相关系数

    Pearson(皮尔逊)相关系数:也叫pearson积差相关系数.衡量两个连续变量之间的线性相关程度. 当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数, ...

  5. 皮尔逊(Pearson)系数矩阵——numpy

    一.原理 注意 专有名词.(例如:极高相关) 二.代码 import numpy as np f = open('../file/Pearson.csv', encoding='utf-8') dat ...

  6. Spark Mllib里的如何对两组数据用皮尔逊计算相关系数

    不多说,直接上干货! import org.apache.spark.mllib.stat.Statistics 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mlli ...

  7. Python基于皮尔逊系数实现股票预测

    # -*- coding: utf-8 -*- """ Created on Mon Dec 2 14:49:59 2018 @author: zhen "&q ...

  8. 从欧几里得距离、向量、皮尔逊系数到http://guessthecorrelation.com/

    一.欧几里得距离就是向量的距离公式 二.皮尔逊相关系数反应的就是线性相关 游戏http://guessthecorrelation.com/ 的秘诀也就是判断一组点的拟合线的斜率y/x ------- ...

  9. 皮尔逊残差 | Pearson residual

    参考:Pearson Residuals 这些概念到底是写什么?怎么产生的? 统计学功力太弱了!

随机推荐

  1. Mars之android的Handler(2)

    handler .looper.messageque的关系在前面已经有个介绍,但前面handler(1)中handler的使用是极少的一种情况,因为handler.sendMessage()可以在Ma ...

  2. 基于WEB 的认证防火墙的设计

    项目要求: 1.  采用Linux iptbles作为接入防火墙,默认放行所以访问入口的80端口 2.  访问者通过http://x.x.x.x 访问防火墙的认证系统,进行账号的登陆操作,同时系统对用 ...

  3. hdu4602(矩阵快速幂)

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4602 题意:对于每个数的分解,列出其元素的出现的个数. 1    2   3    4    5 1  ...

  4. hdu1712(分组背包)

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1712 分析: 典型的分组背包问题,如果不会的可以看一下背包九讲. 看下背包九讲中的描述: for 所有 ...

  5. linux的tr命令

    tr(translate缩写)主要用于删除文件中的控制字符,或进行字符转换. 语法 tr [ -c | -cds | -cs | -C | -Cds | -Cs | -ds | -s] [ -A] S ...

  6. Lichee (五岁以下儿童) sysconfig1.fex 配置系统

    sysconfig配置系统,作为一个通用的软件平台,还希望通过它.能够适应用户不同的方案.通过给出一个相应的配置.用户的方案就能够自己主动执行,而不须要改动系统里面的代码,或者又一次给出參数. 一. ...

  7. 第6本:《The Hunger Games》

    第6本:<The Hunger Games> 以前从未读过一本完整的英文小说,所有就在今年的读书目标中增加了一本英文小说,但在 头四个月内一直没有下定决定读哪一本.一次偶然从SUN的QQ空 ...

  8. hdu4003(树形dp)

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4003 题意:给定一棵n个节点的树,遍历每条数边都需要费用cost,现在给定k个机器人,要求用这个k个机 ...

  9. asp.net操作word的表格

    近日开发中用户要求实现导出数据为Word,本来想使用html保存为word的实现,但因用户要求样式很高,使用html不好控制,并且导出中包括图片,使用页面导出时图片还是一个路径,不能把图片包括在wor ...

  10. 经典回忆Effective C++ 1

    c++ 联邦语言: typedef { unit C; unit Object-Oriented C++; unit Template C++; unit STL; }; notice: C++高效编 ...