Python进行数据分析（二）MovieLens 1M 数据集

# -*- coding: utf-8 -*-

"""

Created on Thu Sep 21 12:24:37 2017

@author: Douzi

"""

import pandas as pd

# 用户信息

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']

users = pd.read_table('ch02/movielens/users.dat', sep='::', header=None, names=unames, engine='python')

# 电影排名

rnames = ['user_id', 'movie_id', 'rating', 'timestamp']

ratings = pd.read_table('ch02/movielens/ratings.dat', sep='::', header=None, names=rnames,engine='python')

# 电影信息

mnames = ['movie_id', 'title', 'genres']

movies = pd.read_table('ch02/movielens/movies.dat', sep='::', header=None, names=mnames, engine='python')

users[:5]

Out[113]:

   user_id gender  age  occupation    zip

0        1      F    1          10  48067

1        2      M   56          16  70072

2        3      M   25          15  55117

3        4      M   45           7  02460

4        5      M   25          20  55455

ratings[:5]

Out[114]:

   user_id  movie_id  rating  timestamp

0        1      1193       5  978300760

1        1       661       3  978302109

2        1       914       3  978301968

3        1      3408       4  978300275

4        1      2355       5  978824291

movies[:5]

Out[115]:

   movie_id                               title                        genres

0         1                    Toy Story (1995)   Animation|Children's|Comedy

1         2                      Jumanji (1995)  Adventure|Children's|Fantasy

2         3             Grumpier Old Men (1995)                Comedy|Romance

3         4            Waiting to Exhale (1995)                  Comedy|Drama

4         5  Father of the Bride Part II (1995)                        Comedy

合并数据
根据任意个用户或电影属性对评分数据进行聚合操作
按性别计算每部电影的平均得分（产生了另一个DataFrame，其内容是电影平均分，行标为电影名称，列标为性别）
对title进行分组, 利用size() 得到一个含有各个电影分组大小的 Series对象：
为了了解女性观众最喜欢的电影，我们可以对F列降序排列

# -*- coding: utf-8 -*-

import pandas as pd

# 用户信息

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']

users = pd.read_table('pydata-book-master/ch02/movielens/users.dat', sep='::', header=None, names=unames, engine='python')

# 电影排名

rnames = ['user_id', 'movie_id', 'rating', 'timestamp']

ratings = pd.read_table('pydata-book-master/ch02/movielens/ratings.dat', sep='::', header=None, names=rnames,engine='python')

# 电影信息

mnames = ['movie_id', 'title', 'genres']

movies = pd.read_table('pydata-book-master/ch02/movielens/movies.dat', sep='::', header=None, names=mnames, engine='python')

data = pd.merge(pd.merge(ratings, users), movies)

data.ix[0]

mean_ratings = data.pivot_table('rating', index='title',

                                columns='gender', aggfunc='mean')

mean_ratings[:5]

# 过滤掉评分数据不够250条的电影

# 对title进行分组，然后利用size()得到一个含有各电影分组大小的Series对象

ratings_by_title = data.groupby('title').size()

ratings_by_title[:10]

active_titles = ratings_by_title.index[ratings_by_title >= 250]

# 该索引中含有评分数据>250条的电影名称,然后根据前面的mean_ratings中

# 选取所需的行

mean_ratings = mean_ratings.ix[active_titles]

top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)     

top_female_ratings[:10]

结果：

top_female_ratings[:10]

Out[4]:

gender                                                     F         M

title

Close Shave, A (1995)                               4.644444  4.473795

Wrong Trousers, The (1993)                          4.588235  4.478261

Sunset Blvd. (a.k.a. Sunset Boulevard) (1950)       4.572650  4.464589

Wallace & Gromit: The Best of Aardman Animation...  4.563107  4.385075

Schindler's List (1993)                             4.562602  4.491415

Shawshank Redemption, The (1994)                    4.539075  4.560625

Grand Day Out, A (1992)                             4.537879  4.293255

To Kill a Mockingbird (1962)                        4.536667  4.372611

Creature Comforts (1990)                            4.513889  4.272277

Usual Suspects, The (1995)                          4.513317  4.518248

计算评分分歧
找到男性和女性观众分歧最大的电影。

# 给mean_ratings加上一个用于存放平均得分之差的列，并对其进行排序:

mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']

sorted_by_diff = mean_ratings.sort_index(by='diff')

# 按“diff” 排序即可得到分歧最大，且女性观众更喜欢的电影。
sorted_by_diff[:15]

Out[9]:

gender                                        F         M      diff

title

Dirty Dancing (1987)                   3.790378  2.959596 -0.830782

Jumpin' Jack Flash (1986)              3.254717  2.578358 -0.676359

Grease (1978)                          3.975265  3.367041 -0.608224

Little Women (1994)                    3.870588  3.321739 -0.548849

Steel Magnolias (1989)                 3.901734  3.365957 -0.535777

Anastasia (1997)                       3.800000  3.281609 -0.518391

Rocky Horror Picture Show, The (1975)  3.673016  3.160131 -0.512885

Color Purple, The (1985)               4.158192  3.659341 -0.498851

Age of Innocence, The (1993)           3.827068  3.339506 -0.487561

Free Willy (1993)                      2.921348  2.438776 -0.482573

French Kiss (1995)                     3.535714  3.056962 -0.478752

Little Shop of Horrors, The (1960)     3.650000  3.179688 -0.470312

Guys and Dolls (1955)                  4.051724  3.583333 -0.468391

Mary Poppins (1964)                    4.197740  3.730594 -0.467147

Patch Adams (1998)                     3.473282  3.008746 -0.464536

# 对排序结果反序并取出前15行，得到的则是男性观众更喜欢的电影

sorted_by_diff[::-1][:15]


Out[11]:

gender                                         F         M      diff

title

Good, The Bad and The Ugly, The (1966)  3.494949  4.221300  0.726351

Kentucky Fried Movie, The (1977)        2.878788  3.555147  0.676359

Dumb & Dumber (1994)                    2.697987  3.336595  0.638608

Longest Day, The (1962)                 3.411765  4.031447  0.619682

Cable Guy, The (1996)                   2.250000  2.863787  0.613787

Evil Dead II (Dead By Dawn) (1987)      3.297297  3.909283  0.611985

Hidden, The (1987)                      3.137931  3.745098  0.607167

Rocky III (1982)                        2.361702  2.943503  0.581801

Caddyshack (1980)                       3.396135  3.969737  0.573602

For a Few Dollars More (1965)           3.409091  3.953795  0.544704

Porky's (1981)                          2.296875  2.836364  0.539489

Animal House (1978)                     3.628906  4.167192  0.538286

Exorcist, The (1973)                    3.537634  4.067239  0.529605

Fright Night (1985)                     2.973684  3.500000  0.526316

Barb Wire (1996)                        1.585366  2.100386  0.515020

# 根据电影名称分组的得分数据的标准差

rating_std_by_title = data.groupby('title')['rating'].std()

# 根据active_titles进行过滤

rating_std_by_title = rating_std_by_title.ix[active_titles]

# 根据值对Series进行降序排列

rating_std_by_title.order(ascending=False)[:10]

rating_std_by_title.order(ascending=False)[:10]

Out[17]:

title

Dumb & Dumber (1994)                     1.321333

Blair Witch Project, The (1999)          1.316368

Natural Born Killers (1994)              1.307198

Tank Girl (1995)                         1.277695

Rocky Horror Picture Show, The (1975)    1.260177

Eyes Wide Shut (1999)                    1.259624

Evita (1996)                             1.253631

Billy Madison (1995)                     1.249970

Fear and Loathing in Las Vegas (1998)    1.246408

Bicentennial Man (1999)                  1.245533

Name: rating, dtype: float64

Python进行数据分析（二）MovieLens 1M 数据集的更多相关文章

《利用Python进行数据分析》笔记---第2章--MovieLens 1M数据集
写在前面的话: 实例中的所有数据都是在GitHub上下载的,打包下载即可. 地址是:http://github.com/pydata/pydata-book 还有一定要说明的: 我使用的是Python ...
利用python进行数据分析PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:hi2j 内容简介 [名人推荐] "科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法.本书在未来几年里肯定会成为Python领域中技术计 ...
《利用python进行数据分析》读书笔记 --第一、二章准备与例子
http://www.cnblogs.com/batteryhp/p/4868348.html 第一章准备工作今天开始码这本书--<利用python进行数据分析>.R和python都得 ...
利用python进行数据分析——（一）库的学习
总结一下自己对python常用包:Numpy,Pandas,Matplotlib,Scipy,Scikit-learn 一. Numpy: 标准安装的Python中用列表(list)保存一组值,可以用 ...
利用python进行数据分析之pandas入门
转自https://zhuanlan.zhihu.com/p/26100976 目录: 5.1 pandas 的数据结构介绍5.1.1 Series5.1.2 DataFrame5.1.3索引对象5. ...
《利用Python进行数据分析·第2版》第四章 Numpy基础：数组和矢量计算
<利用Python进行数据分析·第2版>第四章 Numpy基础:数组和矢量计算 numpy高效处理大数组的数据原因: numpy是在一个连续的内存块中存储数据,独立于其他python内置对 ...
利用Python进行数据分析(5) NumPy基础: ndarray索引和切片
概念理解索引即通过一个无符号整数值获取数组里的值. 切片即对数组里某个片段的描述. 一维数组一维数组的索引一维数组的索引和Python列表的功能类似: 一维数组的切片一维数组的切片语法格式为a ...
利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
一.reindex() 方法:重新索引针对 Series 重新索引指的是根据index参数重新进行排序. 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行. 不想用缺失值,可以用 ...
利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析.它提供了大量高级的数据结构和对数据处理的方法. pandas 有两个主要的数据结构 ...

随机推荐

uc浏览器的用户体验
用户界面: 我认为,uc浏览器的用户界面还是很招人喜欢的,可以很容易让用户找到自己想看的网页.简单快捷. 记住用户的选择: uc在每次用户访问完网站之后都会记住用户访问的高频网站,以便下次用户可以更好 ...
使用qemu-img创建虚拟磁盘文件
# 安装qemu-img yum install -y qemu-img # 获取帮助 qemu-img --help # 支持的虚拟磁盘文件格式 Supported formats: vvf ...
spring重定向与转发
1.重定向 A,通过ModelAndView以及RedirectView @RequestMapping("/login1.do") public ModelAndView log ...
软工网络15团队作业4-DAY2
每个人的工作 (有work item 的ID),并将其记录在码云项目管理中: 昨天已完成的工作. 张陈东芳:查看数据库的连接吴敏烽:规范商品实体类周汉麟:研究获取商品信息的方法林振斌:研究获取商 ...
【leetcode】215. Kth Largest Element in an Array
Find the kth largest element in an unsorted array. Note that it is the kth largest element in the so ...
超强汇总！110 道 Python 面试笔试题
https://mp.weixin.qq.com/s/hDQrimihoaHSbrtjLybZLA 今天给大家分享了110道面试题,其中大部分是巩固基本python知识点,希望刚刚入手python,对 ...
C# 事件总线 EventBus
1. 引言事件总线这个概念对你来说可能很陌生,但提到观察者(发布-订阅)模式,你也许就很熟悉.事件总线是对发布-订阅模式的一种实现.它是一种集中式事件处理机制,允许不同的组件之间进行彼此通信而又不需 ...
FastReport.Net 无限页高(连续纸小票)
using System; using System.Collections; using System.Collections.Generic; using System.ComponentMode ...
剖析Vue原理&实现双向绑定MVVM-2
vue.js 最核心的功能有两个,一是响应式的数据绑定系统,二是组件系统.本文仅探究双向绑定是怎样实现的.先讲涉及的知识点,再用简化得不能再简化的代码实现一个简单的 hello world 示例. 一 ...
赋予Winform程序管理员访问权限
业务场景:Winform操作系统盘文件夹时进行文件的读写时,会需要管理员权限打开文件. 解决方案: 在项目文件中找到app.manifest文件打开. 替换requestedExecutionLeve ...

Python进行数据分析（二）MovieLens 1M 数据集

合并数据

根据任意个用户或电影属性对评分数据进行聚合操作

按性别计算每部电影的平均得分（产生了另一个DataFrame，其内容是电影平均分，行标为电影名称，列标为性别）

对title进行分组, 利用size() 得到一个含有各个电影分组大小的 Series对象：

为了了解女性观众最喜欢的电影，我们可以对F列降序排列

结果：

计算评分分歧

找到男性和女性观众分歧最大的电影。

Python进行数据分析（二）MovieLens 1M 数据集的更多相关文章

随机推荐

热门专题