Python推荐系统库--Surprise实战

一、使用movieLens数据集

from surprise import KNNBasic, SVD

from surprise import Dataset

from surprise import evaluate, print_perf

# 使用公开的推荐系统数据集--MovieLens

data = Dataset.load_builtin('ml-100k')

# k 折交叉验证

data.split(n_folds=3)

# 算法使用SVD分解

algo = SVD()

# 在数据集上测试效果，算出最小均方根误差、平均绝对误差

perf = evaluate(algo, data, measures=['RMSE', 'MAE'])

# 输出结果

print_perf(perf)

Evaluating RMSE, MAE of algorithm SVD.

------------

Fold 1

RMSE: 0.9506

MAE:  0.7511

------------

Fold 2

RMSE: 0.9452

MAE:  0.7456

------------

Fold 3

RMSE: 0.9442

MAE:  0.7444

------------

------------

Mean RMSE: 0.9467

Mean MAE : 0.7470

------------

------------

        Fold 1  Fold 2  Fold 3  Mean

RMSE    0.9506  0.9452  0.9442  0.9467

MAE     0.7511  0.7456  0.7444  0.7470

二、算法调参

我们使用sklearn常用到的网格搜索交叉验证（GridSearchCV）来选择最优的参数

# 算法调参

from surprise import GridSearch

# 迭代轮次、学习率、

# 三个参数，每个有两个参数，2^3 = 8种可能

param_grid = {'n_epochs':[5, 10], 'lr_all':[0.002, 0.005],

             'reg_all':[0.4, 0.6]}

# 使用SVD算法，三个参数参与调参，评估标准使用最小均方根误差、协调对分数

grid_search = GridSearch(SVD, param_grid, measures=['RMSE', 'FCP'])

data = Dataset.load_builtin('ml-100k')

data.split(n_folds=3)

grid_search.evaluate(data)

Running grid search for the following parameter combinations:

{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.4}

{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.6}

{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.4}

{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.6}

{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.4}

{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.6}

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}

Resulsts:

{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.4}

{'RMSE': 0.9973640543212537, 'FCP': 0.6834505918617332}

----------

{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.6}

{'RMSE': 1.0033367804212159, 'FCP': 0.6863671726311678}

----------

{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.4}

{'RMSE': 0.9740022047005671, 'FCP': 0.693822773157699}

----------

{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.6}

{'RMSE': 0.9828360526820644, 'FCP': 0.6939377853330241}

----------

{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.4}

{'RMSE': 0.9783154591562983, 'FCP': 0.6919014896389958}

----------

{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.6}

{'RMSE': 0.9863470326305794, 'FCP': 0.6925580320424597}

----------

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}

{'RMSE': 0.9641597864074152, 'FCP': 0.6973875277009212}

----------

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}

{'RMSE': 0.9740231673256359, 'FCP': 0.6976928768968366}

# 输出最优的参数组

# 输出最好的RMSE结果

print(grid_search.best_score['RMSE'])

# 输出对应最好的RMSE结果的参数

print(grid_search.best_params['RMSE'])

0.9641597864074152

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}

# 最好的FCP得分

print(grid_search.best_score['FCP'])

# 输出对应最好的FCP结果的参数

print(grid_search.best_params['FCP'])

0.6983253171588012

{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}

在自己的数据集上训练模型

该如何做？

1. 载入自己的数据集

import os

from surprise import Reader, Dataset

# 指定文件路径

file_path = os.path.expanduser('./popular_music_suprise_format.txt')

# 指定文件格式

reader = Reader(line_format='user item rating timestamp', sep=',')

# 从文件读取数据

music_data = Dataset.load_from_file(file_path, reader=reader)

# 分成5折

music_data.split(n_folds=5)

2. 使用不同的推荐算法进行建模比较

### 使用NormalPredictor

from surprise import NormalPredictor, evaluate

algo = NormalPredictor()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用BaselineOnly

from surprise import BaselineOnly, evaluate

algo = BaselineOnly()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用基础版协同过滤

from surprise import KNNBasic, evaluate

algo = KNNBasic()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用均值协同过滤

from surprise import KNNWithMeans, evaluate

algo = KNNWithMeans()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用协同过滤baseline

from surprise import KNNBaseline, evaluate

algo = KNNBaseline()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用SVD

from surprise import SVD, evaluate

algo = SVD()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用SVD++

from surprise import SVDpp, evaluate

algo = SVDpp()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

### 使用NMF

from surprise import NMF

algo = NMF()

perf = evaluate(algo, music_data, measures=['RMSE', 'MAE'])

print_perf(perf)

Python推荐系统库--Surprise实战的更多相关文章

Python推荐系统库Surprise
Surprise(Simple Python Recommendation System Engine)是一款推荐系统库,是scikit系列中的一个.简单易用,同时支持多种推荐算法.基础算法.协同过滤 ...
Python推荐系统库--Surprise理论
Surprise Surprise是scikit系列中的一个.Surprise的User Guide有详细的解释和说明支持多种推荐算法基础算法/baseline algorithms 基于近邻方法 ...
python推荐系统库
Python推荐系统库——Surprise 在Python中实现你自己的推荐系统 python-recsys:一款实现推荐系统的python库
【读书笔记与思考】《python数据分析与挖掘实战》-张良均
[读书笔记与思考]<python数据分析与挖掘实战>-张良均最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基 ...
Python+Flask+Gunicorn 项目实战(一) 从零开始，写一个Markdown解析器 —— 初体验
(一)前言在开始学习之前,你需要确保你对Python, JavaScript, HTML, Markdown语法有非常基础的了解.项目的源码你可以在 https://github.com/zhu-y ...
python 数据分析与挖掘实战01
python 数据分析与挖掘实战 day 01 08/02 这种从数据中"淘金",从大量数据包括文本中挖掘出隐含的.未知的.对决策有潜在价值关系.模式或者趋势,并用这些知识和规则建 ...
实时获取股票数据，免费！——Python爬虫Sina Stock实战
更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 实时股票数据的重要性对于四大可交易资产:股票.期货.期权.数字货币来说,期货.期权.数字货币,可以从交 ...
Python Django CMDB项目实战之-3创建form表单，并在前端页面上展示
基于之前的项目代码 Python Django CMDB项目实战之-1如何开启一个Django-并设置base页.index页.文章页面 Python Django CMDB项目实战之-2创建APP. ...
Python Django CMDB项目实战之-2创建APP、建模（models.py）、数据库同步、高级URL、前端页面展示数据库中数据
基于之前的项目代码来编写 Python Django CMDB项目实战之-1如何开启一个Django-并设置base页index页文章页面现在我们修改一个文章列表是从数据库中获取数据, 下面我们就需 ...

随机推荐

python,类和对象练习
''' 按照一下要求定义一个游乐园门票类,并尝试计算2个成人+1个小孩子平日票价 1.平日票价100元 2.周末票价为平日票价120% 3.儿童半价 ''' class Ticket: pice = ...
SpringBoot整合全局异常处理&SpringBoot整合定时任务Task&SpringBoot整合异步任务
============整合全局异常=========== 1.整合web访问的全局异常如果不做全局异常处理直接访问如果报错,页面会报错500错误,对于界面的显示非常不友好,因此需要做处理. 全局异 ...
Battery historian安装及使用
在介绍Battery historian之前首先来介绍一下 Android adb bugreport 工具,bugreport是什么,怎么用? android系统想要成为一个功能完备,生态繁荣的操作 ...
linux+php实现定时任务[链接]
1.crontab 详细用法定时任务 https://www.cnblogs.com/aminxu/p/5993769.html 2.查看crontab日志 https://www.cnblogs. ...
Intel Xeon E5-2620 v4参数
基本参数 CPU系列 Xeon E5 v4系列制作工艺 14纳米核心代号 Broadwell 性能参数核心数量八核心线程数量十六线程 CPU主频 2.1GHz 动态加速频率 3GHz L3 ...
C/C++经典面试题一
1.变量的声明和定义有什么区别? 常量:在程序执行过程中,不会发生改变的量,不能被改变的量变量:在程序执行过程中,可以被改变的量定义变量的方式:数据类型变量名 = 常量: int num = 1 ...
awk入门【转】
awk其实不仅仅是工具软件,还是一种编程语言.不过,本文只介绍它的命令行用法,对于大多数场合,应该足够用了. 一.基本用法 awk的基本用法就是下面的形式. # 格式 $ awk 动作文件名 # 示 ...
MySQL用source命令导入不记入binlog中【原创】
试验环境,MySQL主主复制主库10.72.16.112 从库10.72.16.50 一直有个疑问,利用sql_log_bin=0可以临时在客户端停止将操作记入binlog中,如果使用source命 ...
Markdown中Latex 数学公式基本语法
原文地址:http://blog.csdn.net/u014630987/article/details/70156489 Markdown中Latex 数学公式基本语法公式排版分为两种排版: - ...
Light OJ 1095
题意: 给你 N 个数, 总共有 N! 种排列, 现在要你统计前 M 个数刚好有K 个数在原来的位置上的排列个数思路: 首先 M 中选 K C(m,k): 则共剩下 n - k 个数, ...

Python推荐系统库--Surprise实战

一、使用movieLens数据集

二、算法调参

在自己的数据集上训练模型

推荐系统--不同电影之间的相似度

一、载入数据，使用算法算出相互间的相似度

二、获取相似度最近的10部电影

Python推荐系统库--Surprise实战的更多相关文章

随机推荐

热门专题