LFM 隐语义模型

隐语义模型：

物品表示为长度为k的向量q（每个分量都表示物品具有某个特征的程度）

用户兴趣表示为长度为k的向量p（每个分量都表示用户对某个特征的喜好程度）

用户u对物品i的兴趣可以表示为

其损失函数定义为-

使用随机梯度下降，获得参数p,q

负样本生成：

对于只有正反馈信息（用户收藏了，关注了xxx）的数据集，需要生成负样本，原则如下

1.生成的负样本要和正样本数量相当

2.物品越热门（用户没有收藏该物品），越有可能是负样本

实现：

# coding=gbk

'''

实现隐语义模型，对隐式数据进行推荐

1.对正样本生成负样本

  -负样本数量相当于正样本

  -物品越热门，越有可能成为负样本

2.使用随机梯度下降法，更新参数

'''

import numpy as np

import pandas as pd

import random

from sklearn import cross_validation

class LFM():

    '''

    初始化隐语义模型

    参数：

    *F  隐特征的个数

    *N  迭代次数

    *data 训练数据,要求为pandas的dataframe

    *alpha 随机梯度下降的学习速率

    *r 正则化参数

    *ratio 负样本/正样本比例

    '''

    def __init__(self,data,F=100,N=1000,alpha=0.02,r=0.01,ratio=1):

        self.F=F

        self.N=N

        self.alpha=alpha

        self.r=r

        self.data=data

        self.ratio=ratio

    '''

    初始化物品池，物品池中物品出现的次数与其流行度成正比

    '''

    def InitItemPool(self):

        self.itemPool=[]

        groups = self.data.groupby([1])

        for item,group in groups:

            for i in range(group.shape[0]):

                self.itemPool.append(item)

    '''

    获取每个用户对应的商品（用户购买过的商品）列表，如

    {用户1:[商品A，商品B，商品C],

     用户2:[商品D，商品E，商品F]...}

    '''

    def user_item(self,data):

        ui = dict()

        groups = data.groupby([0])

        for item,group in groups:

            ui[item]=set(group.ix[:,1])

        return ui

    '''

    初始化隐特征对应的参数

    numpy的array存储参数，使用dict存储每个用户（物品）对应的列

    '''

    def initParam(self):

        users=set(self.data.ix[:,0])

        items=set(self.data.ix[:,1])

        self.Pdict=dict()

        self.Qdict=dict()

        for user in users:

            self.Pdict[user]=len(self.Pdict)

        for item in items:

            self.Qdict[item]=len(self.Qdict)

        self.P=np.random.rand(self.F,len(users))/10

        self.Q=np.random.rand(self.F,len(items))/10

    '''

    使用随机梯度下降法，更新参数

    '''

    def stochasticGradientDecent(self):

        alpha=self.alpha

        for i in range(self.N):

            for user,items in self.ui.items():

                ret=self.RandSelectNegativeSamples(items)

                for item,rui in ret.items():

                   p=self.P[:,self.Pdict[user]]

                   q=self.Q[:,self.Qdict[item]]

                   eui=rui-sum(p*q)

                   tmp=p+alpha*(eui*q-self.r*p)

                   self.Q[:,self.Qdict[item]]+=alpha*(eui*p-self.r*q)

                   self.P[:,self.Pdict[user]]=tmp

            alpha*=0.9

            print i

    def Train(self):

        self.InitItemPool()

        self.ui = self.user_item(self.data)

        self.initParam()

        self.stochasticGradientDecent()

    def Recommend(self,user,k):

        items=self.ui[user]

        p=self.P[:,self.Pdict[user]]

        rank = dict()

        for item,id in self.Qdict.items():

            if item in items:

                continue

            q=self.Q[:,id];

            rank[item]=sum(p*q)

        return sorted(rank.items(),lambda x,y:cmp(x[1],y[1]),reverse=True)[0:k-1];

    '''

    生成负样本

    '''

    def RandSelectNegativeSamples(self,items):

        ret=dict()

        for item in items:

            #所有正样本评分为1

            ret[item]=1

        #负样本个数，四舍五入

        negtiveNum = int(round(len(items)*self.ratio))

        N = 0

        while N<negtiveNum:

            item = self.itemPool[random.randint(0, len(self.itemPool) - 1)]

            if item in items:

                #如果在用户已经喜欢的物品列表中，继续选

                continue

            N+=1

            #负样本评分为0

            ret[item]=0

        return ret

data=pd.read_csv('../data/ratings.dat',sep='::',nrows=10000,header=None)

data=data.ix[:,0:1]

train,test=cross_validation.train_test_split(data,test_size=0.2)

train = pd.DataFrame(train)

test = pd.DataFrame(test)

lfm = LFM(data=train)

lfm.Train()

lfm.Recommend(1, 10)

LFM 隐语义模型的更多相关文章

RS：关于协同过滤，矩阵分解，LFM隐语义模型三者的区别
项亮老师在其所著的<推荐系统实战>中写道: 第2章利用用户行为数据 2.2.2 用户活跃度和物品流行度的关系 [仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法.学术界对协同过滤算 ...
LFM隐语义模型Latent Factor Model
实际应用 LFM 模型在实际使用中有一个困难,就是很难实现实时推荐.经典的 LFM 模型每次训练都需要扫描所有的用户行为记录,并且需要在用户行为记录上反复迭代来优化参数,所以每次训练都很耗时,实际应用 ...
【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
推荐系统之隐语义模型(LFM)
LFM(latent factor model)隐语义模型,这也是在推荐系统中应用相当普遍的一种模型.那这种模型跟ItemCF或UserCF的不同在于: 对于UserCF,我们可以先计算和目标用户兴趣 ...
推荐系统第5周--- 基于内容的推荐，隐语义模型LFM
基于内容的推荐
推荐系统之隐语义模型LFM
LFM(latent factor model)隐语义模型,这也是在推荐系统中应用相当普遍的一种模型.那这种模型跟ItemCF或UserCF的不同在于: 对于UserCF,我们可以先计算和目标用户兴趣 ...
推荐系统--隐语义模型LFM
主要介绍隐语义模型 LFM(latent factor model). 隐语义模型最早在文本挖掘领域被提出,用于找到文本的隐含语义,相关名词有 LSI.pLSA.LDA 等.在推荐领域,隐语义模型也 ...
隐语义模型LFM
隐语义模型是通过隐含特征,联系用户和物品,基于用户的特征对物品进行自动聚类,然后在用户感兴趣的类中选择物品推荐给用户. 对于推荐系统,常用的算法: USER-CF:给用户推荐和他兴趣相似的用户喜欢 ...

随机推荐

More is better--hdu1856（并查集）
More is better Time Limit: 5000/1000 MS (Java/Others) Memory Limit: 327680/102400 K (Java/Others) ...
Counting square
Problem Description There is a matrix of size R rows by C columns. Each element in the matrix is eit ...
网易云课堂_Linux操作系统入门（嵌入式开发零基础Ⅰ）_章节4:SHELL 环境
课时44命令别名命令别名命令别名的概念: 命令别名的查看:alias 命令别名的设置:alias myls='ls -a' 课时45通配符通配符通配符都概念: 通配符是代表字符通用匹配的一种系 ...
python list求交集
方法一: a=[1,2,3] b=[1,3,4] c=list(set(a).intersection(set(b))) print c #[1,3] 这种方法是先把list转换为set,再用set求 ...
android _scrollview嵌套listview出现高度显示不全解决方案
只要在工具类里写上这一段代码:/** * scrollview嵌套listview显示不全解决 * @param listView */ public static void setListViewH ...
【奇偶剪枝】【HDU1010】Tempter of the Bone
题意:输入一个n*m的迷宫,和一个T:可以在迷宫中生存的最大时间.S为起点,D为终点.并且,每个格子只能踩一次,且只能维持一秒,然后该块地板就会塌陷.所以你必须每秒走一步,且到D点时,所用时间为T. ...
C#整理6——数组的应用
数组的应用:(一).冒泡排序.1.冒泡排序是用双层循环解决.外层循环的是趟数,里层循环的是次数.2.趟数=n-1:次数=n-趟数.3.里层循环使用if比较相临的两个数的大小,进行数值交换. 作业:1. ...
ChartConlrol二维图表类型
WinForms Controls >Controls > Chart Control > Concepts > Creating Charts > 2D Chart T ...
Windows系统的安装
一.写在前面笔者最近因为换工作,在家待业甚感无聊,于是想要整理一些在Windows系统的一些安装方法和下载资源,一来给自己做个备忘,二来把一些不成熟的想法分享出去,希望大家予以指正. ...
XPath在asp.net中查询XML
.NET Framework 2.0中可以使用System.Xml.XPath命名空间下的类对XML文档进行基于路径的查询,在查询过程中需要构造类似SQL的查询字符串,该字符串遵循XPath语法.它由 ...

LFM 隐语义模型

LFM 隐语义模型的更多相关文章

随机推荐

热门专题