协同过滤CF算法之入门

数据规整

首先将评分数据从 ratings.dat 中读出到一个 DataFrame 里：

>>> import pandas as pd

In [2]: import pandas as pd

In [3]: df = pd.read_csv('2014-12-18.csv')

In [4]: df.head()
Out[4]:
user_id item_id behavior_type user_geohash item_category hour
0 100268421 284019855 1 95ridd7 1863 19
1 109802727 56489946 1 NaN 8291 10
2 109802727 56489946 1 NaN 8291 10
3 109802727 266907147 1 99ctk96 9117

>>> data = ratings.pivot(index='user_id',columns='movie_id',values='rating')

>>> data[:5]

movie_id 1 2 3 4 5 6

user_id

1 5 NaN NaN NaN NaN NaN ...

2 NaN NaN NaN NaN NaN NaN ...

3 NaN NaN NaN NaN NaN NaN ...

4 NaN NaN NaN NaN NaN NaN ...

5 NaN NaN NaN NaN NaN 2 ...

>>> check_size = 1000

>>> check = {}

>>> check_data = data.copy()#复制一份 data 用于检验，以免篡改原数据

>>> check_data = check_data.ix[check_data.count(axis=1)>200]#滤除评价数小于200的用户

>>> for user in np.random.permutation(check_data.index):

movie = np.random.permutation(check_data.ix[user].dropna().index)[0]

check[(user,movie)] = check_data.ix[user,movie]

check_data.ix[user,movie] = np.nan

check_size -= 1

if not check_size:

break

>>> corr = check_data.T.corr(min_periods=200)

>>> corr_clean = corr.dropna(how='all')

>>> corr_clean = corr_clean.dropna(axis=1,how='all')#删除全空的行和列

>>> check_ser = Series(check)#这里是被提取出来的 1000 个真实评分

>>> check_ser[:5]

(15, 593) 4

(23, 555) 3

(33, 3363) 4

(36, 2355) 5

(53, 3605) 4

dtype: float64

参考：

Python 基于协同过滤的推荐

利用python的theano库刷kaggle mnist排行榜

协同过滤CF算法之入门的更多相关文章

基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms” .
ligh@local-host$ ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.3 基于物品的协同过滤推荐算法--读"Item-Based ...
【Machine Learning】Mahout基于协同过滤(CF)的用户推荐
一.Mahout推荐算法简介 Mahout算法框架自带的推荐器有下面这些: l GenericUserBasedRecommender:基于用户的推荐器,用户数量少时速度快: l GenericI ...
SparkMLlib—协同过滤推荐算法，电影推荐系统，物品喜好推荐
SparkMLlib-协同过滤推荐算法,电影推荐系统,物品喜好推荐一.协同过滤 1.1 显示vs隐式反馈 1.2 实例介绍 1.2.1 数据说明评分数据说明(ratings.data) 用户信息( ...
SimRank协同过滤推荐算法
在协同过滤推荐算法总结中,我们讲到了用图模型做协同过滤的方法,包括SimRank系列算法和马尔科夫链系列算法.现在我们就对SimRank算法在推荐系统的应用做一个总结. 1. SimRank推荐算法的 ...
基于MapReduce的（用户、物品、内容）的协同过滤推荐算法
1.基于用户的协同过滤推荐算法利用相似度矩阵*评分矩阵得到推荐列表已经推荐过的置零 2.基于物品的协同过滤推荐算法 3.基于内容的推荐算法思想:给用户推荐和他们之前喜欢的物品在内容上相似的物品 ...
推荐系统算法学习（一）——协同过滤(CF) MF FM FFM
https://blog.csdn.net/qq_23269761/article/details/81355383 1.协同过滤(CF)[基于内存的协同过滤] 优点:简单,可解释缺点:在稀疏情况下 ...
Spark ML协同过滤推荐算法
一.简介协同过滤算法[Collaborative Filtering Recommendation]算法是最经典.最常用的推荐算法.该算法通过分析用户兴趣,在用户群中找到指定用户的相似用户,综合这些 ...
协同过滤 CF & ALS 及在Spark上的实现
使用Spark进行ALS编程的例子可以看:http://www.cnblogs.com/charlesblc/p/6165201.html ALS:alternating least squares ...
基于局部敏感哈希的协同过滤推荐算法之E^2LSH
需要代码联系作者,不做义务咨询. 一.算法实现基于p-stable分布,并以‘哈希技术分类’中的分层法为使用方法,就产生了E2LSH算法. E2LSH中的哈希函数定义如下: 其中,v为d维原始数据, ...

随机推荐

【DevExpress v17.2新功能预告】增强ASP.NET TreeList
本文主要为大家介绍在下一个主要版本v17.2中,DevExpress ASP.NET TreeList获得的一些重大改进.DevExpress ASP.NET TreeList和GridView控件在 ...
git误提交了项目文件和配置文件的恢复方法
参考链接:https://my.oschina.net/yangfuhai/blog/708704
php include，require 主要是向网页中引入文件
php 函数2
happypack 进一步优化 build速率
1.webpack.base.conf.js 使用happypack的正确姿势: 'use strict' const path = require('path') const utils = req ...
jenkins系列（9）--插件之Archive The Artifacts
点击标题下「蓝色微信名」可快速关注坚持的是分享,搬运的是知识,图的是大家的进步,没有收费的培训,没有虚度的吹水,喜欢就关注.转发(免费帮助更多伙伴)等来交流,想了解的知识请留言,给你带来更多价值,是 ...
设计Popup Window
设计一个Popup window, 在其中实现分享到Facebook 和Twitter 功能. popup window 名称为 ShareView.xaml, 代码如下: <phone:Pho ...
SVN 将主干的代码合并到分支上
来源:http://blog.csdn.net/u012701023/article/details/50978154 问题:开发有了项目主干,再次基础上起了一个分支,开发新的功能:因为业务需要,在上 ...
opencv数据类型和格式的坑
//cv::Mat uvp = cv::Mat::zeros(2, probp.size(), CV_8UC1); cv::Mat uvp = cv::Mat::zeros(2, probp.size ...
Unity3D安卓程序中提示窗与常用静态方法封装
Unity3D/安卓封装SDK常用方法本文提供全流程,中文翻译.Chinar坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) 1 IO -- - ...

协同过滤CF算法之入门

数据规整

协同过滤CF算法之入门的更多相关文章

随机推荐

热门专题