推荐数据集MovieLens及评测

数据集简介

MoiveLens是GroupLens Research收集并发布的关于电影评分的数据集，规模也比较大，为了让我们的实验快速有效的进行，我们选取了发布于2003年2月的 MovieLens 1M，这个数据集包含6000个用户对4000个电影的一百万个评分。这个数据集经常用来做推荐系统，机器学习算法的测试数据集。尤其在推荐系统领域，很多著名论文都是基于这个数据集的。数据集下载地址。

数据集格式

评分数据

在rating.dat文件当中，里面主要保存了每个用户与对每一部电影的评分，数据的格式为：用户标识::MovieID::评级::时间戳。

-用户id范围在1到6040之间

-电影id在1到3952之间

-评分以五星为标准(只有全星)

-时间戳以秒为单位表示，从epoch返回到time(2)

-每个用户至少有20个评分

我们简单看一下是不是这样

import pandas as pd

ratings = pd.read_csv('./MovieLens/ml-1m/ratings.dat', delimiter="::",header=None)

ratings.head(5)

输出结果

	0	1	2	3

0	1	1193	5	978300760

1	1	661	3	978302109

2	1	914	3	978301968

3	1	3408	4	978300275

4	1	2355	5	978824291

电影数据

我们再看一下电影数据movies.dat，看一下里面的内容，数据格式为MovieID::电影名称::电影分类

movies = pd.read_csv('./MovieLens/ml-1m/movies.dat', delimiter="::", header=None)

movies.head(5)

输出结果：

        0	1	2

0	1	Toy Story (1995)	Animation|Children's|Comedy

1	2	Jumanji (1995)	Adventure|Children's|Fantasy

2	3	Grumpier Old Men (1995)	Comedy|Romance

3	4	Waiting to Exhale (1995)	Comedy|Drama

4	5	Father of the Bride Part II (1995)	Comedy

用户数据

我们再看一下用户数据users.dat，看一下里面的内容，数据格式为用户标识::性别::年龄::职业::邮编

users = pd.read_csv('./MovieLens/ml-1m/users.dat', delimiter="::", header=None)

users.head(5)

输出结果：



0	1	2	3	4

0	1	F	1	10	48067

1	2	M	56	16	70072

2	3	M	25	15	55117

3	4	M	45	7	02460

4	5	M	25	20	55455

实验设置

以上就是这个数据集所有包含的内容以及相应的含义了，相信通过上面的数据呈现也会对这个数据集大概有个印象。由于后面的算法主要介绍的是隐反馈数据集MoiveLens的TopN的推荐问题，因此忽略了评分记录。

训练设置

我们采用了N折交叉验证的方式进行训练，也就是将数据划分成M份，选取其中M-1份作为训练集，选取其中的1份作为测试集。将M次实验的评测指标的平均值作为算法测试结果。主要是为了防止算法发生过拟合。

import random

def SplitData(data, M, k, seed):

    test = []

    train = []

    random.seed(seed)

    for user, item in data:

        if random.randint(0,M) == k:

            test.append([user,item])

        else:

            train.append([user,item])

    return train, test

评测设置

我们采用了召回率，精准率、覆盖率以及新颖度作为主要的评测指标。上一篇文章以及详细介绍了这四种指标的含义以及推导，这里就给出详细的实现的代码。

召回率

def Recall(train, test, N):

    hit = 0

    all = 0

    for user in train.keys():

        tu = test[user]

        rank = GetRecommendation(user, N)

        for item, pui in rank:

            if item in tu:

                hit += 1

        all += len(tu)

    return hit / (all * 1.0)

精准率

def Precision(train, test, N):

    hit = 0

    all = 0

    for user in train.keys():

        tu = test[user]

        rank = GetRecommendation(user, N)

        for item, pui in rank:

            if item in tu:

                hit += 1

        all += N

    return hit / (all * 1.0)

覆盖率

def Coverage(train, test, N):

    recommend_items = set()

    all_items = set()

    for user in train.keys():

        for item in train[user].keys():

            all_items.add(item)

        rank = GetRecommendation(user, N)

        for item, pui in rank:

            recommend_items.add(item)

    return len(recommend_items) / (len(all_items) * 1.0)

新颖度

计算平均流行度时对每个物品的流行度取对数，这是因为物品的流行度分布满足长尾分布，在取对数后，流行度的平均值更加稳定。

def Popularity(train, test, N):

    item_popularity = dict()

    for user, items in train.items():

        for item in items.keys():

            if item not in item_popularity:

                item_popularity[item] = 0

            item_popularity[item] += 1

    ret = 0

    n = 0

    for user in train.keys():

        rank = GetRecommendation(user, N)

        for item, pui in rank:

            ret += math.log(1 + item_popularity[item])

            n += 1

    ret /= n * 1.0

    return ret

下一篇，我们将介绍基于邻域的算法。

参考

推荐系统实战(一)--movieslens数据集简介

随机推荐

【Azure云服务 Cloud Service】如何在部署云服务Cloud Service时候通过启动任务Start Task来配置IIS (如开启ARR)
问题情形通过VS部署Cloud Service时,需要在开始任务时候安装或配置其他任务,如安装及配置ARR. 执行步骤 1) 下载 requestRouter_amd64.msi 和 webfarm ...
最新版Python 3.8.6 版本发布
Python 3.8.6 发布了,它是 Python 3.8 的第六个维护版本. 3.8 系列的维护版本将每两个月定期更新一次,3.8.7 计划于 2020 年 11 月中旬发布. 随着维护版本的发布 ...
forword与redirect
1.从地址栏显示来说 forward是服务器请求资源,服务器直接访问目标地址的URL,把那个URL的响应内容读取过来,然后把这些内容再发给浏览器.浏览器根本不知道服务器发送的内容从哪里来的,所以它的地 ...
使用Volley获取验证码
时间紧张,直接上代码 public class MainActivity extends AppCompatActivity { private RequestQueue queues ; Strin ...
数据恢复软件推荐-easyrecovery绿色破解版（附注册码）免费下载
easyrecovery破解版专注于PC端存储数据的抢救恢复,软件的整体界面风格和360杀毒有些许相似,没有看起来像牛皮藓的杂乱广告,只有六个功能按键,对应你所遇到的数据丢失状况级别,点击最为适合的功 ...
MapReduce工作原理详解
文章概览: 1.MapReduce简介 2.MapReduce有哪些角色?各自的作用是什么? 3.MapReduce程序执行流程 4.MapReduce工作原理 5.MapReduce中Shuffle ...
分区表的表进行update操作
今天对一张创建了分区表的表进行update操作,正好需要修改的是创建分区的那一列,由于是要修改在分区表范围内的数据,所以无法修改. 然后搜了一下,需要修改row movement这个属性:alter ...
4G DTU模块和串口设备连接的方式
首先说下解决思路: 由于考虑到串口开发很麻烦,所以后来买了一个4g模块的dtu. 所以最后的解决方案是,plc串口设备与dtu相连,由于dtu是透传模式,使用java与4g模块进行通信就完事了. 虽然 ...
python常用模块numpy解析（详解）
numpy模块关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 后打开浏览器输入网址http://local ...
Jetbrains全系列产品 2020最新激活方法（即时更新）
即时更新:http://idea.itmatu.com/key Jetbrains全系列产品 2020最新激活方法 JMFL04QVQA-eyJsaWNlbnNlSWQiOiJKTUZMMDRRVlF ...

推荐系统实践 0x05 推荐数据集MovieLens及评测