欢迎加入python学习交流群 667279387

学习笔记汇总

Pandas学习(一)–数据的导入

pandas学习(二)–双色球数据分析

pandas学习(三)–NAB球员薪资分析

pandas学习(四)–数据的归一化

pandas学习(五)–pandas学习视频

本篇文章主要利用NBA球员的薪资数据处理来进一步学习pandas这个数据处理工具。

1、获取数据并保存

本文从网站:下载网站 来获取2017-2018年各位NBA球员的薪资情况,代码如下:

import pandas as pd

data = pd.DataFrame()
url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
url_list.append(url)
for url in url_list:
data = data.append(pd.read_html(url), ignore_index=True)
data = data[[x.startswith('$') for x in data[3]]]
data.to_csv('NAB_salaries.csv',header=['RK','NAME','TEAM','SALARY'], index=False)

获取到的数据薪资前面10的数据如下

   RK                   NAME                   TEAM       SALARY
0 1 Stephen Curry, PG Golden State Warriors $34,382,550
1 2 LeBron James, SF Cleveland Cavaliers $33,285,709
2 3 Paul Millsap, PF Denver Nuggets $31,269,231
3 4 Gordon Hayward, SF Boston Celtics $29,727,900
4 5 Blake Griffin, PF LA Clippers $29,512,900
5 6 Kyle Lowry, PG Toronto Raptors $28,703,704
6 7 Mike Conley, PG Memphis Grizzlies $28,530,608
7 8 Russell Westbrook, PG Oklahoma City Thunder $28,530,608
8 9 James Harden, SG Houston Rockets $28,299,399
9 10 DeMar DeRozan, SG Toronto Raptors $27,739,975

2、分析数据

2.1、统计一个球队的所有球员薪资总和

# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
money2int = lambda x: "".join(filter(str.isdigit, x))
team_name = lambda x: x.split()[-1]
salary = pd.read_csv('./NAB_salaries.csv', usecols=['NAME', 'TEAM', 'SALARY'], converters={'SALARY': money2int, 'TEAM': team_name}) salary['SALARY'] = salary['SALARY'].astype(np.int)
salary = salary.groupby(['TEAM'], as_index=False).sum()
salary_sorted = salary.sort_values('SALARY',ascending=False)
salary_sorted.index = salary_sorted['TEAM'] salary_sorted.plot(kind='bar', align='center', title='球队队员工资共和($)')
plt.xlabel('球队名')
plt.ylabel('队员工资共和')
plt.show()
            TEAM     SALARY
1 Blazers 134302107
4 Cavaliers 132016201
28 Warriors 128211882
11 Jazz 122981295
10 Hornets 121972410



从统计数据可以看出Blazers(波特兰开拓者队)支付球员薪水花费最大。

2.1、统计多个球队的所有球员薪资分布情况

# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签 money2int = lambda x: "".join(filter(str.isdigit, x))
team_name = lambda x: x.split()[-1]
get_name = lambda x: x.split(',')[0]
salary = pd.read_csv('./NAB_salaries.csv', usecols=['NAME', 'TEAM', 'SALARY'],
converters={'SALARY': money2int, 'NAME': get_name, 'TEAM': team_name})
salary['SALARY'] = salary['SALARY'].astype(np.int) data = pd.DataFrame({"Cavaliers": salary[salary['TEAM'] == 'Cavaliers']['SALARY'],
"Warriors": salary[salary['TEAM'] == 'Warriors']['SALARY'],
"Rockets": salary[salary['TEAM'] == 'Rockets']['SALARY'],
"Lakers": salary[salary['TEAM'] == 'Lakers']['SALARY']})
#合并后面的数据有比较多的NAN数据,但是画图的时候会自动忽略。
#没有找到更好的合并方法,因为球队的队员人数不同,
#如果相同的话,可以转成list再合成dataframe就不会有NAN数据了。
plt.ylabel("球员薪资(单位:$)")
plt.xlabel("球队名")
data.boxplot()
plt.show()



本例子中选取了骑士、湖人、火箭、勇士队来进行分析,作出了

四个球队的所有队员薪资分布的箱图。从图中可以看出湖人队的薪资比较平均,勇士队的薪资跨度比较大。

2.3 统计不同类型球员工资

# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt money2int = lambda x: "".join(filter(str.isdigit, x))
team_name = lambda x: x.split()[-1]
salary = pd.read_csv('./NAB_salaries.csv', usecols=['NAME', 'TEAM', 'SALARY'],
converters={'SALARY': money2int, 'TEAM': team_name})
salary['SALARY'] = salary['SALARY'].astype(np.int)
#原始数据的NAME列是类似(Stephen Curry, PG),
#以下3行代码主要是为了实现将NAME一列拆分两列变为Stephen Curry一列,PG为一列 salary.insert(1, 'POSITION', salary['NAME'])
salary['NAME'] = salary['NAME'].map(lambda x: x.split(',')[0])
salary['POSITION'] = salary['POSITION'].map(lambda x: x.split(',')[1])
# C:Center 中锋
# PF: Power Forward 大前锋
# SF: Small Forward 小前锋
# SG: Shooting Guard 得分后卫
# PG: Point Guard 组织后卫
#print(salary.groupby('POSITION').sum()) #统计各个类型的薪水
#print(salary.groupby('POSITION').describe())#各个类型的数理统计结果
print(salary.groupby('POSITION').mean())

下面是各个类型的平均工资,可以看出SF的平均薪水最高

 C        7808847
F 2770083
G 1685802
PF 6278746
PG 7112007
SF 7886812
SG 6589922

还有很多东西可以从这个数据当中去挖掘,每次实现一个功能,都进一步熟悉了pandas~为后续深入数据分析学习做好了准备~

欢迎python爱好者加入:学习交流群 667279387

Pandas学习(三)——NBA球员薪资分析的更多相关文章

  1. Pandas学习(一)——数据的导入

    欢迎加入python学习交流群 667279387 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学 ...

  2. pandas学习(四)--数据的归一化

    欢迎加入python学习交流群 667279387 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据 ...

  3. Pandas学习(二)——双色球开奖数据分析

    学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据的归一化 pandas学习(五)–pa ...

  4. python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言)

    python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...

  5. 【转】Pandas学习笔记(三)修改&添加值

    Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...

  6. Python pandas学习总结

    本来打算学习pandas模块,并写一个博客记录一下自己的学习,但是不知道怎么了,最近好像有点急功近利,就想把别人的东西复制过来,当心沉下来,自己自觉地将原本写满的pandas学习笔记删除了,这次打算写 ...

  7. numpy pandas 学习

    一. 数组要比列表效率高很多 numpy高效的处理数据,提供数组的支持,python默认没有数组.pandas.scipy.matplotlib都依赖numpy. pandas主要用于数据挖掘,探索, ...

  8. Pandas 学习手册中文第二版·翻译完成

    原文:Learning pandas 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远. 在线阅读 ApacheCN 面试求职交流群 72418 ...

  9. 4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化

    1.前言 之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...

随机推荐

  1. 数据可视化:绘图库-Matplotlib

    为什么要绘图? 一个图表数据的直观分析,下面先看一组北京和上海上午十一点到十二点的气温变化数据: 数据: 这里我用一段代码生成北京和上海的一个小时内每分钟的温度如下: import random co ...

  2. 安装&卸载Windows服务

    使用.NET Framework的工具InstallUtil.exe. 安装服务 C:\Windows\Microsoft.NET\Framework\v4.0.30319\InstallUtil.e ...

  3. Windows下Apache与PHP的安装与配置

    下载Apache Apache的官网(http://httpd.apache.org) 1.把解压后的Apache拷贝到要安装的目标位置.建议拷贝到C盘根目录下,因为这是其默认设置. 2.我选择的是拷 ...

  4. C++中对C的扩展学习新增语法——强制类型转换

    类型转换:主要进行指针类型转换,因为在C++中,不同类型指针不允许隐式转换,任何一个程序中如果出现了大量的类型转换,说明该程序不是太好的程序. 注意事项: 不同类型指针不允许隐式转换: void* 类 ...

  5. CentOS7下安装带用户认证的squid服务器(无防火墙)

    1       安装squid服务: yum install squid 安装htpasswd : yum install httpd-tools 2       配置squid配置文件 #该定义需在 ...

  6. Java,你告诉我 fail-fast 是什么鬼?

    本篇我们来聊聊 Java 的 fail-fast 机制,文字一如既往的有趣哦. 01.前言 说起来真特么惭愧:十年 IT 老兵,Java 菜鸟一枚.今天我才了解到 Java 还有 fail-fast ...

  7. 力扣(LeetCode)2的幂 个人题解

    给定一个整数,编写一个函数来判断它是否是 2 的幂次方. 示例 1: 输入: 1 输出: true 解释: 20 = 1 示例 2: 输入: 16 输出: true 解释: 24 = 16 示这题是考 ...

  8. Springboot 系列(十六)你真的了解 Swagger 文档吗?

    前言 目前来说,在 Java 领域使用 Springboot 构建微服务是比较流行的,在构建微服务时,我们大多数会选择暴漏一个 REST API 以供调用.又或者公司采用前后端分离的开发模式,让前端和 ...

  9. vue 优化小技巧 之 require.context()

    1.require.context() 回忆一下 当我们引入组件时 第一步 创建一个子组件 第二步 import ... form ... 第三步 components:{..} 第四步 页面使用 & ...

  10. 推荐几个不错的console调试技巧

    在我们的日常前端开发中,使用最频繁的莫过于使用console.log在浏览器的控制台中打印出我们需要调试的信息,但是大部分人可能跟之前的我一样,没有意识到其实console除了log方法以外,还有很多 ...