【笔记5】用pandas实现矩阵数据格式的推荐算法 (基于物品的协同)

'''

基于物品的协同推荐

矩阵数据

说明：

1.修正的余弦相似度是一种基于模型的协同过滤算法。我们前面提过，这种算法的优势之

一是扩展性好，对于大数据量而言，运算速度快、占用内存少。

2.用户的评价标准是不同的，比如喜欢一个歌手时有些人会打4分，有些打5分；不喜欢时

有人会打3分，有些则会只给1分。修正的余弦相似度计算时会将用户对物品的评分减去

用户所有评分的均值，从而解决这个问题。

'''

import pandas as pd

from io import StringIO

#数据类型一：csv矩阵（用户-商品）（适用于小数据量）

csv_txt = '''"user","Blues Traveler","Broken Bells","Deadmau5","Norah Jones","Phoenix","Slightly Stoopid","The Strokes","Vampire Weekend"

"Angelica",3.5,2.0,,4.5,5.0,1.5,2.5,2.0

"Bill",2.0,3.5,4.0,,2.0,3.5,,3.0

"Chan",5.0,1.0,1.0,3.0,5,1.0,,

"Dan",3.0,4.0,4.5,,3.0,4.5,4.0,2.0

"Hailey",,4.0,1.0,4.0,,,4.0,1.0

"Jordyn",,4.5,4.0,5.0,5.0,4.5,4.0,4.0

"Sam",5.0,2.0,,3.0,5.0,4.0,5.0,

"Veronica",3.0,,,5.0,4.0,2.5,3.0,'''

#数据类型一：csv矩阵（用户-商品）（适用于小数据量）

csv_txt2 = '''"user","Kacey Musgraves","Imagine Dragons","Daft Punk","Lorde","Fall Out Boy"

"David",,3,5,4,1

"Matt",,3,4,4,1

"Ben",4,3,,3,1

"Chris",4,4,4,3,1

"Tori",5,4,5,,3'''

#数据类型一：csv矩阵（用户-商品）（适用于小数据量）

#根据《data minning guide》第85页的users2数据

csv_txt3 = '''"user","Taylor Swift","PSY","Whitney Houston"

"Amy",4,3,4

"Ben",5,2,

"Clara",,3.5,4

"Daisy",5,,3'''

df = None

#方式一：加载csv数据

def load_csv_txt():

    global df, csv_txt, csv_txt2, csv_txt3

    df = pd.read_csv(StringIO(csv_txt3), header=0, index_col="user")

#测试：读取数据

load_csv_txt()

#=======================================

# 注意：不需要build_xy

#=======================================

# 计算两个物品相似度

def computeSimilarity(goods1, goods2):

    '''根据《data minning guide》第71页的公式s(i,j)'''

    # 每行的用户评分都减去了该用户的平均评分

    df2 = df[[goods1, goods2]].sub(df.mean(axis=1), axis=0).dropna(axis=0) #黑科技

    # 返回修正的余弦相似度

    return sum(df2[goods1] * df2[goods2]) / (sum(df2[goods1]**2) * sum(df2[goods2]**2))**0.5

# csv_txt

#print('\n测试：计算Blues Traveler与Broken Bells的相似度')

#print(computeSimilarity("Blues Traveler","Broken Bells"))

# csv_txt2

#print('\n测试：计算Kacey Musgraves与Imagine Dragons的相似度')

#print(computeSimilarity("Kacey Musgraves","Imagine Dragons"))

# 计算给定用户对物品的可能评分

def p(user, goods):

    '''根据《data minning guide》第75页的公式p(u,i)'''

    assert pd.isnull(df.ix[user, goods]) # 必须用户对给定物品尚未评分

    s1 = df.ix[user, df.ix[user].notnull()] #用户对已打分物品的打分数据

    s2 = s1.index.to_series().apply(lambda x:computeSimilarity(x, goods)) #打分物品分别与给定物品的相似度

    return sum(s1 * s2) / sum(abs(s2))

# csv_txt2

#print('\n测试：计算David对Kacey Musgraves的可能打分')

#print(p("David","Kacey Musgraves"))

#为了让公式的计算效果更佳，对物品的评价分值最好介于-1和1之间

def rate2newrate(rate):

    '''根据《data minning guide》第76页的公式NR(u,N)'''

    ma, mi = df.max().max(), df.min().min()

    return (2*(rate - mi) - (ma - mi))/(ma - mi)

#已知rate2newrate求newrate2rate

def newrate2rate(new_rate):

    '''根据《data minning guide》第76页的公式R(u,N)'''

    ma, mi = df.max().max(), df.min().min()

    return (0.5 * (new_rate + 1) * (ma - mi)) + mi

print('\n测试：计算3的new_rate值')

print(rate2newrate(3))

print('\n测试：计算0.5的rate值')

print(newrate2rate(0.5))

# 计算给定用户对物品的可能评分(对评分进行了修正/还原)

def p2(user, goods):

    '''根据《data minning guide》第75页的公式p(u,i)'''

    assert pd.isnull(df.ix[user, goods]) # 必须用户对给定物品尚未评分

    s1 = df.ix[user, df.ix[user].notnull()] #用户对已打分物品的打分数据

    s1 = s1.apply(lambda x:rate2newrate(x)) #修正

    s2 = s1.index.to_series().apply(lambda x:computeSimilarity(x, goods)) #已打分物品分别与给定物品的相似度

    return newrate2rate(sum(s1 * s2) / sum(abs(s2)))#还原

# csv_txt2

#print('\n测试：计算David对Kacey Musgraves的可能打分（修正）')

#print(p2("David","Kacey Musgraves"))

#==================================

# 下面是Slope One算法

#

# 两个步骤：

# 1. 计算差值

# 2. 预测用户对尚未评分物品的评分

#==================================

# 1.计算两物品之间的差异

def dev(goods1, goods2):

    '''根据《data minning guide》第80页的公式dev(i,j)'''

    s = (df[goods1] - df[goods2]).dropna()

    d = sum(s) / s.size

    return d, s.size #返回差异值，及权值（同时对两个物品打分的人数）

# csv_txt2

#print('\n测试：计算Kacey Musgraves与Imagine Dragons的分数差异')

#print(dev("Kacey Musgraves","Imagine Dragons"))

#计算所有两两物品之间的评分差异，得到方阵pd.DataFrame（行对列）

def get_dev_table():

    '''根据《data minning guide》第87页的表'''

    goods_names = df.columns.tolist()

    df2 = pd.DataFrame(.0, index=goods_names, columns=goods_names) #零方阵

    for i,goods1 in enumerate(goods_names):

        for goods2 in goods_names[i+1:]:

            d, _ = dev(goods1, goods2) # 注意：只取了物品差异值

            df2.ix[goods1, goods2] = d

            df2.ix[goods2, goods1] = -d # 对称的位置取反

    return df2

print('\n测试：计算所有两两物品之间的评分差异表')

print(get_dev_table())

#预测某用户对给定物品的评分

# 加权Slope One算法

def slopeone(user, goods):

    '''根据《data minning guide》第82页的公式p(u,j)'''

    s1 = df.ix[user].dropna() #用户对已打分物品的打分数据

    s2 = s1.index.to_series().apply(lambda x:dev(goods, x)) #待打分物品与已打分物品的差异值及权值

    s3 = s2.apply(lambda x:x[0]) #差异值

    s4 = s2.apply(lambda x:x[1]) #权值

    #print(s1, s3, s4)

    return sum((s1 + s3) * s4)/sum(s4)

print('\n测试：预测用户Ben对物品Whitney Houston的评分')

print(slopeone('Ben', 'Whitney Houston')) # 3.375

【笔记5】用pandas实现矩阵数据格式的推荐算法 (基于物品的协同)的更多相关文章

【笔记6】用pandas实现条目数据格式的推荐算法 (基于物品的协同)
''' 基于物品的协同推荐矩阵数据说明: 1.修正的余弦相似度是一种基于模型的协同过滤算法.我们前面提过,这种算法的优势之一是扩展性好,对于大数据量而言,运算速度快.占用内存少. 2.用户的评价 ...
【笔记3】用pandas实现矩阵数据格式的推荐算法 (基于用户的协同)
原书作者使用字典dict实现推荐算法,并且惊叹于18行代码实现了向量的余弦夹角公式. 我用pandas实现相同的公式只要3行. 特别说明:本篇笔记是针对矩阵数据,下篇笔记是针对条目数据. ''' 基于 ...
【笔记4】用pandas实现条目数据格式的推荐算法 (基于用户的协同)
''' 基于用户的协同推荐条目数据 ''' import pandas as pd from io import StringIO import json #数据类型一:条目(用户.商品.打分)(避 ...
简单的基于矩阵分解的推荐算法-PMF, NMF
介绍: 推荐系统中最为主流与经典的技术之一是协同过滤技术(Collaborative Filtering),它是基于这样的假设:用户如果在过去对某些项目产生过兴趣,那么将来他很可能依然对其保持热忱.其 ...
HAWQ + MADlib 玩转数据挖掘之（四）——低秩矩阵分解实现推荐算法
一.潜在因子(Latent Factor)推荐算法本算法整理自知乎上的回答@nick lee.应用领域:"网易云音乐歌单个性化推荐"."豆瓣电台音乐推荐"等. ...
（转）基于MapReduce的ItemBase推荐算法的共现矩阵实现（一）
转自:http://zengzhaozheng.blog.51cto.com/8219051/1557054 一.概述这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及 ...
用Spark学习矩阵分解推荐算法
在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述在Spark MLlib ...
推荐算法之用矩阵分解做协调过滤——LFM模型
隐语义模型(Latent factor model,以下简称LFM),是推荐系统领域上广泛使用的算法.它将矩阵分解应用于推荐算法推到了新的高度,在推荐算法历史上留下了光辉灿烂的一笔.本文将对 LFM ...
Python 的 Pandas 对矩阵的行进行求和
Python 的 Pandas 对矩阵的行进行求和: 若使用 df.apply(sum) 方法的话,只能对矩阵的列进行求和,要对矩阵的行求和,可以先将矩阵转置,然后应用 df.apply(sum) 即 ...

随机推荐

学习zepto.js(对象方法)[5]
继续说. clone: 该方法不接收任何参数,会返回对象中的所有元素集合,但不会对象绑定的事件. var $temp = $("div").clone(); //并不接收任何参数. ...
Sass初使用
看慕课网materliu前辈的sass教程,http://www.imooc.com/learn/364.顺便把刚做完的项目重构一下,然后把一些笔记和心得都写在这里~ 首先安装sass,这里直接参考 ...
Golang语法与代码格式速记【转】
// Description: Golang语法与代码格式速记 // Author: cxy // Date: 2013-04-01 // Version: 0.3 // TODO 说明 // TOD ...
Linux下安装使用Solr
Linux下安装使用Solr 1.首先下载Solr.mmseg4j分词包.tomcat并解压,这用google.百度都可以搜索得到下载地址. 2.因为要使用到中文分词,所以要设置编码,进入tomcat ...
基于Ruby的Watir-WebDriver自动化测试框架
基于Ruby的watir-webdriver自动化测试方案与实施(五) 基于Ruby的watir-webdriver自动化测试方案与实施(四) 基于Ruby的watir-webdriver自动 ...
谈谈yii2-GridView如何实现列表页直接修改数据
作者:白狼出处:http://www.manks.top/yii2_gridview_advanced.html 本文版权归作者,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原 ...
.NET应用架构设计—面向对象分析与设计四色原型模式（彩色建模、领域无关模型）（概念版）
阅读目录: 1.背景介绍 2.问自己,UML对你来说有意义吗?它帮助过你对系统进行分析.建模吗? 3.一直以来其实我们被一个缝隙隔开了,使我们对OOAD遥不可及 4.四色原型模式填补这个历史缝隙,让我 ...
设置共享，实现Linux和Windows之间的共享
设置共享,实现Linux和Windows之间的共享前提: 安装虚拟机.可以参考:在Windows上安装虚拟机详细图文教程安装Linux.可以参考:在VMware Workstation里的Linu ...
在Dell R720服务器上安装ESXI5.5时会出现卡在LSI_MR3.V00的解决方法
接近年底,公司各种活动,各种加班,导致没有太多时间写博客,今抽了点时间将前几天搭建虚拟化服务时所出现的一个问题描述下: 服务器配置:CUP E5-2609 内存32G 硬盘5 ...
register_shutdown_function AND fastcgi_finish_request
在php中又两个方法都是在请求快结束的时候执行.方法名分别是 register_shutdown_function和fastcgi_finish_request.虽然执行的时机差不多,但是功能和应用场 ...

【笔记5】用pandas实现矩阵数据格式的推荐算法 (基于物品的协同)

【笔记5】用pandas实现矩阵数据格式的推荐算法 (基于物品的协同)的更多相关文章

随机推荐

热门专题