Pandas学习(三)——NBA球员薪资分析
欢迎加入python学习交流群 667279387
学习笔记汇总
Pandas学习(一)–数据的导入
pandas学习(二)–双色球数据分析
pandas学习(三)–NAB球员薪资分析
pandas学习(四)–数据的归一化
pandas学习(五)–pandas学习视频
本篇文章主要利用NBA球员的薪资数据处理来进一步学习pandas这个数据处理工具。
1、获取数据并保存
本文从网站:下载网站 来获取2017-2018年各位NBA球员的薪资情况,代码如下:
import pandas as pd
data = pd.DataFrame()
url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
url_list.append(url)
for url in url_list:
data = data.append(pd.read_html(url), ignore_index=True)
data = data[[x.startswith('$') for x in data[3]]]
data.to_csv('NAB_salaries.csv',header=['RK','NAME','TEAM','SALARY'], index=False)
获取到的数据薪资前面10的数据如下
RK NAME TEAM SALARY
0 1 Stephen Curry, PG Golden State Warriors $34,382,550
1 2 LeBron James, SF Cleveland Cavaliers $33,285,709
2 3 Paul Millsap, PF Denver Nuggets $31,269,231
3 4 Gordon Hayward, SF Boston Celtics $29,727,900
4 5 Blake Griffin, PF LA Clippers $29,512,900
5 6 Kyle Lowry, PG Toronto Raptors $28,703,704
6 7 Mike Conley, PG Memphis Grizzlies $28,530,608
7 8 Russell Westbrook, PG Oklahoma City Thunder $28,530,608
8 9 James Harden, SG Houston Rockets $28,299,399
9 10 DeMar DeRozan, SG Toronto Raptors $27,739,975
2、分析数据
2.1、统计一个球队的所有球员薪资总和
# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
money2int = lambda x: "".join(filter(str.isdigit, x))
team_name = lambda x: x.split()[-1]
salary = pd.read_csv('./NAB_salaries.csv', usecols=['NAME', 'TEAM', 'SALARY'], converters={'SALARY': money2int, 'TEAM': team_name})
salary['SALARY'] = salary['SALARY'].astype(np.int)
salary = salary.groupby(['TEAM'], as_index=False).sum()
salary_sorted = salary.sort_values('SALARY',ascending=False)
salary_sorted.index = salary_sorted['TEAM']
salary_sorted.plot(kind='bar', align='center', title='球队队员工资共和($)')
plt.xlabel('球队名')
plt.ylabel('队员工资共和')
plt.show()
TEAM SALARY
1 Blazers 134302107
4 Cavaliers 132016201
28 Warriors 128211882
11 Jazz 122981295
10 Hornets 121972410
从统计数据可以看出Blazers(波特兰开拓者队)支付球员薪水花费最大。
2.1、统计多个球队的所有球员薪资分布情况
# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
money2int = lambda x: "".join(filter(str.isdigit, x))
team_name = lambda x: x.split()[-1]
get_name = lambda x: x.split(',')[0]
salary = pd.read_csv('./NAB_salaries.csv', usecols=['NAME', 'TEAM', 'SALARY'],
converters={'SALARY': money2int, 'NAME': get_name, 'TEAM': team_name})
salary['SALARY'] = salary['SALARY'].astype(np.int)
data = pd.DataFrame({"Cavaliers": salary[salary['TEAM'] == 'Cavaliers']['SALARY'],
"Warriors": salary[salary['TEAM'] == 'Warriors']['SALARY'],
"Rockets": salary[salary['TEAM'] == 'Rockets']['SALARY'],
"Lakers": salary[salary['TEAM'] == 'Lakers']['SALARY']})
#合并后面的数据有比较多的NAN数据,但是画图的时候会自动忽略。
#没有找到更好的合并方法,因为球队的队员人数不同,
#如果相同的话,可以转成list再合成dataframe就不会有NAN数据了。
plt.ylabel("球员薪资(单位:$)")
plt.xlabel("球队名")
data.boxplot()
plt.show()
本例子中选取了骑士、湖人、火箭、勇士队来进行分析,作出了
四个球队的所有队员薪资分布的箱图。从图中可以看出湖人队的薪资比较平均,勇士队的薪资跨度比较大。
2.3 统计不同类型球员工资
# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
money2int = lambda x: "".join(filter(str.isdigit, x))
team_name = lambda x: x.split()[-1]
salary = pd.read_csv('./NAB_salaries.csv', usecols=['NAME', 'TEAM', 'SALARY'],
converters={'SALARY': money2int, 'TEAM': team_name})
salary['SALARY'] = salary['SALARY'].astype(np.int)
#原始数据的NAME列是类似(Stephen Curry, PG),
#以下3行代码主要是为了实现将NAME一列拆分两列变为Stephen Curry一列,PG为一列
salary.insert(1, 'POSITION', salary['NAME'])
salary['NAME'] = salary['NAME'].map(lambda x: x.split(',')[0])
salary['POSITION'] = salary['POSITION'].map(lambda x: x.split(',')[1])
# C:Center 中锋
# PF: Power Forward 大前锋
# SF: Small Forward 小前锋
# SG: Shooting Guard 得分后卫
# PG: Point Guard 组织后卫
#print(salary.groupby('POSITION').sum()) #统计各个类型的薪水
#print(salary.groupby('POSITION').describe())#各个类型的数理统计结果
print(salary.groupby('POSITION').mean())
下面是各个类型的平均工资,可以看出SF的平均薪水最高
C 7808847
F 2770083
G 1685802
PF 6278746
PG 7112007
SF 7886812
SG 6589922
还有很多东西可以从这个数据当中去挖掘,每次实现一个功能,都进一步熟悉了pandas~为后续深入数据分析学习做好了准备~
欢迎python爱好者加入:学习交流群 667279387
Pandas学习(三)——NBA球员薪资分析的更多相关文章
- Pandas学习(一)——数据的导入
欢迎加入python学习交流群 667279387 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学 ...
- pandas学习(四)--数据的归一化
欢迎加入python学习交流群 667279387 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据 ...
- Pandas学习(二)——双色球开奖数据分析
学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据的归一化 pandas学习(五)–pa ...
- python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
- 【转】Pandas学习笔记(三)修改&添加值
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
- Python pandas学习总结
本来打算学习pandas模块,并写一个博客记录一下自己的学习,但是不知道怎么了,最近好像有点急功近利,就想把别人的东西复制过来,当心沉下来,自己自觉地将原本写满的pandas学习笔记删除了,这次打算写 ...
- numpy pandas 学习
一. 数组要比列表效率高很多 numpy高效的处理数据,提供数组的支持,python默认没有数组.pandas.scipy.matplotlib都依赖numpy. pandas主要用于数据挖掘,探索, ...
- Pandas 学习手册中文第二版·翻译完成
原文:Learning pandas 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远. 在线阅读 ApacheCN 面试求职交流群 72418 ...
- 4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言 之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...
随机推荐
- jdbc 加载数据库驱动如何破坏双亲委托模式
导读 通过jdbc链接数据库,是每个学习Java web 方向的人必然一开始会写的代码,虽然现在各路框架都帮大家封装好了jdbc,但是研究一下jdbc链接的套路还是很意义 术语以及相 ...
- Ansible之常用模块(一)
ansible之所以功能强大,不是ansible本身,是因为它有众多的模块,前文我们介绍了ansible的基础介绍,系列命令的用法以及选项的说明,通过前文的学习我们知道了ansible是基于pytho ...
- Python 基础 内置函数 迭代器与生成器
今天就来介绍一下内置函数和迭代器 .生成器相关的知识 一.内置函数:就是Python为我们提供的直接可以使用的函数. 简单介绍几个自己认为比较重要的 1.#1.eval函数:(可以把文件中每行中的数据 ...
- Spring资源下载(官网)
Spring 资源jar包官网下载地址: 点击Spring
- 初识web API接口及Restful接口规范
一.web API接口 什么是web API接口?: 明确了请求方式,提供对应后台所需参数,请求url链接可以得到后台的响应数据 url : 返回数据的url https://api.map.baid ...
- 阿里云开源 image-syncer 工具,容器镜像迁移同步的终极利器
为什么要做这个工具? 由于阿里云上的容器服务 ACK 在使用成本.运维成本.方便性.长期稳定性上大大超过公司自建自维护 Kubernets 集群,有不少公司纷纷想把之前自己维护 Kubernetes ...
- spark集群搭建(三台虚拟机)——系统环境搭建(1)
!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2.Ubuntu14.04.securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0. ...
- Zabbix-(五)监控Docker容器与自定义jvm监控项
Zabbix-(五)监控Docker容器与自定义jvm监控项 一.前言 前文中讲述了Zabbix对服务器硬件方面的监控功能,本文将讲述利用Zabbix监控Docker容器中的Java Web服务,并通 ...
- 用安全密钥验证ssh
1.需要打开两台虚拟机,并保证两台虚拟机可以ping通: 本地主机IP:192.168.8.120 远程主机IP:192.168.8.100 2.在本地主机生成密钥对,输入命令“ssh-keygen” ...
- 《JAVA 程序员面试宝典(第四版)》读书笔记之前言
工作五年了一直在小的软件公司混,总感觉自己的专业知识没有太大的提升.当然了中间也换了一两家公司,面试的公司就很多家,总感觉正规的软件公司(无论大小)对于基础知识的考核都非常重视,而不管你说你之前服务过 ...