协同过滤（collaborative filtering）

协同过滤

这里我们主要考虑的是协同过滤，这也是最经典的推荐算法。协同过滤的思想很简单，就是像我们平时需要找一部好看的电影最简单的方式就是找兴趣相同的人推荐。

相似度计算：

相似度的计算主要有以下几种方法：

基于欧氏距离相似度=1/（1+欧式距离）
基于皮尔逊相关系数（Pearson correlation） 0.5+0.5*corrcoef()
余弦相似度 0.5+0.5*cos

item-based CF & user-based CF：

item-based CF

基于item的协同过滤，通过用户对不同item的评分来评测item之间的相似性，基于item之间的相似性做出推荐；

user-based CF

基于user的协同过滤，通过不同用户对item的评分来评测用户之间的相似性，基于用户之间的相似性做出推荐；

面临的挑战：

实例和SVD优化

背景：

构建一个餐馆食物推荐引擎，推荐给用户他没有尝试过的最适合他的选择。

做法：

我们这里采用的是item-based CF。就是推断出用户对那些没有尝试过的评分再根据评分推荐。另外由于现实中客户是远远不可能尝试所有的产品的，所以实际的矩阵中很多的值都是0，这时候我们可以采
用SVD进行降维，在小的多的数据情况下得到相似的结果。

函数：

ecludSim(inA, inB)
基于欧式距离的相似度计算
pearsSim(inA, inB)
基于皮尔森距离的相似度计算
cosSim(inA, inB)
余弦相似度的计算
standEst(dataMat, user, simMeans, item)
求出用户对物品的估计分值，计算出相似度和评分成绩，最后相似度评分进行归一化使结果在0到5之间
svdEst(dataMat, user, simMeas, item)
在估计分数的过程中使用svd降维，保留90%的能量值。
def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst)
对给定的用户推荐给他N个产品。过程很简单，首先找出那些他没有评级的产品，然后调用estMethod给出评分，再选评分前面几个。

#coding=utf-8

from numpy import *

def loadExData():

    return[[4, 4, 0, 2, 2],

           [4, 0, 0, 3, 3],

           [4, 0, 0, 1, 1],

           [1, 1, 1, 2, 0],

           [2, 2, 2, 0, 0],

           [5, 5, 5, 0, 0],

           [1, 1, 1, 0, 0]]

def loadExData2():

    return[[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],

           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],

           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],

           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],

           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],

           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],

           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],

           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],

           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],

           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],

           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]

def ecludSim(inA, inB):

    return 1.0 / (1.0 + linalg.norm(inA - inB))

def pearsSim(inA, inB):

    if len(inA) < 3:

        return 1.0

    return 0.5 + 0.5*corrcoef(inA , inB, rowVal = 0)[0][1]

def cosSim(inA, inB):

    num = float(inA.T*inB)

    denom = linalg.norm(inA)*linalg.norm(inB)

    return 0.5 + 0.5 * (num/denom)

def standEst(dataMat, user, simMeans, item):

    n =shape(dataMat)[1]

    simTotal = 0.0

    ratSimTotal = 0.0

    for j in range(n):

        userRating = dataMat[user,j]

        if userRating == 0:

            continue

        overLap = nonzero(logical_and(dataMat[:,item].A>0, \

                                      dataMat[:,j].A>0))[0]

        if len(overLap) == 0:

            similarity = 0

        else:

            similarity = simMeans(dataMat[overLap,item],

                dataMat[overLap,j])

        simTotal += similarity

        ratSimTotal += similarity * userRating

    if simTotal == 0:

        return 0

    else:

        return ratSimTotal / simTotal

def svdEst(dataMat, user, simMeas, item):

    n = shape(dataMat)[1]

    simTotal = 0.0; ratSimTotal = 0.0

    U,Sigma,VT = linalg.svd(dataMat)

    sig2 = Sigma ** 2

    cut = 0

    for i in range(n):

        if sum(sig2[:i]) / sum(sig2) > 0.9:

            print i

            cut = i

            break

    Sig4 = mat(eye(cut)*Sigma[:cut]) #arrange Sig4 into a diagonal matrix

    xformedItems = dataMat.T * U[:,:cut] * Sig4.I  #create transformed items

    for j in range(n):

        userRating = dataMat[user,j]

        if userRating == 0 or j==item: continue

        similarity = simMeas(xformedItems[item,:].T,\

                             xformedItems[j,:].T)

        print 'the %d and %d similarity is: %f' % (item, j, similarity)

        simTotal += similarity

        ratSimTotal += similarity * userRating

    if simTotal == 0: return 0

    else: return ratSimTotal/simTotal

def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst):

    unratedItems = nonzero(dataMat[user,:].A==0)[1]#find unrated items

    if len(unratedItems) == 0:

        return 'you rated everything'

    itemScores = []

    for item in unratedItems:

        estimatedScore = estMethod(dataMat, user, simMeas, item)

        itemScores.append((item, estimatedScore))

    return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[:N]

def main():

    myMat = mat(loadExData2())

    print recommend(myMat,2,estMethod=svdEst)

if __name__ == '__main__':

    main()

这个话题IBM有几篇写的很好：
IBM1
IBM2
IBM3

机器学习笔记索引

来自为知笔记(Wiz)

协同过滤和简单SVD优化的更多相关文章

当因式分解遇见近邻:一种多层面协同过滤模型（SVD++）
本文地址:https://www.cnblogs.com/kyxfx/articles/9392086.html actorization Meets the Neighborhood: a Mult ...
机器学习 | 简介推荐场景中的协同过滤算法，以及SVD的使用
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第29篇文章,我们来聊聊SVD在上古时期的推荐场景当中的应用. 推荐的背后逻辑有没有思考过一个问题,当我们在淘宝或者是 ...
推荐系统-协同过滤在Spark中的实现
作者:vivo 互联网服务器团队-Tang Shutao 现如今推荐无处不在,例如抖音.淘宝.京东App均能见到推荐系统的身影,其背后涉及许多的技术.本文以经典的协同过滤为切入点,重点介绍了被工业界广 ...
从item-base到svd再到rbm，多种Collaborative Filtering(协同过滤算法)从原理到实现
http://blog.csdn.net/dark_scope/article/details/17228643 〇.说明本文的所有代码均可在 DML 找到,欢迎点星星. 一.引入推荐系统(主要是 ...
SVD++：推荐系统的基于矩阵分解的协同过滤算法的提高
1.背景知识在讲SVD++之前,我还是想先回到基于物品相似的协同过滤算法.这个算法基本思想是找出一个用户有过正反馈的物品的相似的物品来给其作为推荐.其公式为:
电影推荐系统---协同过滤算法(SVD,NMF)
SVD 参考 https://www.zybuluo.com/rianusr/note/1195225 1 推荐系统概述 1.1 项目安排 1.2 三大协同过滤 1.3 项目开发工具 ...
简单的python协同过滤程序
博主是自然语言处理方向的,不是推荐系统领域的,这个程序完全是为了应付大数据分析与计算的课程作业所写的一个小程序,先上程序,一共55行.不在意细节的话,55行的程序已经表现出了协同过滤的特性了.就是对每 ...
机器学习实战（Machine Learning in Action）学习笔记————10.奇异值分解(SVD)原理、基于协同过滤的推荐引擎、数据降维
关键字:SVD.奇异值分解.降维.基于协同过滤的推荐引擎作者:米仓山下时间:2018-11-3机器学习实战(Machine Learning in Action,@author: Peter Harr ...
使用Python3.7配合协同过滤算法(base on user,基于人)构建一套简单的精准推荐系统（个性化推荐）
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_136 时至2020年,个性化推荐可谓风生水起,Youtube,Netflix,甚至于Pornhub,这些在互联网上叱咤风云的流媒体 ...

随机推荐

Ubuntu下sphinx使用
Ubuntu安装参考文档进入sphinx mysql -h0 -P9306 查询 select * from 索引名
miRNA特点
### miRNA特点 (1)广泛存在于真核生物中, 是一组不编码蛋白质的短序列RNA,它本身不具有开放阅读框架(ORF),并且由不同于mRNA的独立转录单位表达. (2)通常的长度为20-24 nt ...
[Think In Java]基础拾遗2 - 多态、反射、异常、字符串
目录第八章多态第十四章类型信息第十二章通过异常处理错误第十三章字符串第八章多态 1. 前期绑定 & 后期绑定绑定是指将方法调用同一个方法主体关联起来的这么一个过程.如果在程序执 ...
搭建vpn环境：centos7+openvpn
vpn的含义:virtual private network vpn的作用/使用场景:最常见的一个作用,你通过公网来访问某个局域网里的主机/服务,其实就是搭建一个隧道,用公网传递你的数据包,等数据包到 ...
【BZOJ-3243】向量内积随机化 + 矩阵
3243: [Noi2013]向量内积 Time Limit: 10 Sec Memory Limit: 256 MBSec Special JudgeSubmit: 1249 Solved: ...
Vue.JS 对比其他框架
Angular 选择 Vue 而不选择 Angular,有下面几个原因,当然不是对每个人都适合: 在 API 与设计两方面上 Vue.js 都比 Angular 简单得多,因此你可以快速地掌握它的全部 ...
POJ1091跳蚤（容斥 + 唯一分解 + 快速幂）
题意:规定每次跳的单位 a1, a2, a3 …… , an, M,次数可以为b1, b2, b3 …… bn, bn + 1, 正好表示往左,负号表示往右, 求能否调到左边一位,即 a1* b1 ...
Java框架Struts2
struts2的核心和工作原理在学习struts2之前,首先我们要明白使用struts2的目的是什么?它能给我们带来什么样的好处? 设计目标 Struts设计的第一目标就是使MVC模式应用于we ...
树莓派笔记之使用netselect选择最快Raspbian软件源
背景: 之前在葉難大大的部落格里看到有讲可以使用netselect查找最快软件源,今天正好看到, 特此记下来,因为之前一直使用中国科学技术大学的源,结果发现不是我这里最快的. 注意: 以下仅对Rasp ...
centos6.7设置非root帐户自动登录
1.在/etc/gdm/custom.conf文件中修改并加入以下这段 [daemon]AutomaticLogin=你的用户名AutomaticLoginEnable=True 2.重启 reboo ...

协同过滤和简单SVD优化