数据分析06 /pandas高级操作相关案例：人口案例分析、2012美国大选献金项目数据分析

数据分析06 /pandas高级操作相关案例：人口案例分析、2012美国大选献金项目数据分析
- 1. 人口分析案例
- 2. 2012美国大选献金项目数据分析

1. 人口分析案例

需求：
1. 导入文件，查看原始数据
2. 将人口数据和各州简称数据进行合并
3. 将合并的数据中重复的abbreviation列进行删除
4. 查看存在缺失数据的列
5. 找到有哪些state/region使得state的值为NaN，进行去重操作
6. 为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN
7. 合并各州面积数据areas
8. 我们会发现area(sq.mi)这一列有缺失数据，找出是哪些行
9. 去除含有缺失数据的行
10. 找出2010年的全民人口数据
11. 计算各州的人口密度
12. 排序，并找出人口密度最高的五个州

代码实现：

1.导入文件，查看原始数据

import pandas as pd

# 各州的全称和简称

abb = pd.read_csv('./data/state-abbrevs.csv')

abb.head()

# 各州人口数据

pop = pd.read_csv('./data/state-population.csv')

pop.head()

# 各州面积数据

area = pd.read_csv('./data/state-areas.csv')

area.head()

2.将人口数据和各州简称数据进行合并

abb_pop = pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer') # how指定称outer，可以保证数据的完整性

abb_pop.head()

3.将合并的数据中重复的abbreviation列进行删除

abb_pop.drop(labels='abbreviation',axis=1,inplace=True)

abb_pop.head()

4.查看存在缺失数据的列

# 方式一：

abb_pop.info()

# 方式二：

abb_pop.isnull().any(axis=0)

5.找到有哪些state/region使得state的值为NaN，进行去重操作

# 找出全称（state）的空值

abb_pop['state'].isnull()

# 找出空值对应的行数据（行数据中就有符合条件的简称）

abb_pop.loc[abb_pop['state'].isnull()]

# 在空所对应的行数据中取出简称（找到了空对应的简称）

abb_pop.loc[abb_pop['state'].isnull()]['state/region']

# 去重

abb_pop.loc[abb_pop['state'].isnull()]['state/region'].unique()

# nunique()统计去重之后结果的个数，n-> num

abb_pop.loc[abb_pop['state'].isnull()]['state/region'].nunique()

6.为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN

思路：将state列中的空值都取出来，然后将其分成两组（PR对应的空值，USA对应的空）

# 根据PR去state中定位空值

abb_pop['state/region'] == 'PR'

# 将PR对应的行数据取出，从行数据中定位空值，定位到的空值就是PR对应的空，空值赋值PR的全程

abb_pop.loc[abb_pop['state/region'] == 'PR']

# 将PR对应的state的空值的行索引获取

indexs = abb_pop.loc[abb_pop['state/region'] == 'PR'].index

indexs

# 将indexs对应行中的state列的数据批量赋值成PR的全称

abb_pop.loc[indexs,'state'] = 'Puerto Rico'

# 将USA对应的全称的空值覆盖称United Status

abb_pop['state/region'] == 'USA'

abb_pop.loc[abb_pop['state/region'] == 'USA']

indexs = abb_pop.loc[abb_pop['state/region'] == 'USA'].index

abb_pop.loc[indexs,'state'] = 'United Status'

7.合并各州面积数据areas

abb_pop_area = pd.merge(abb_pop,area,on='state',how='outer')

abb_pop_area.head()

8.我们会发现area(sq.mi)这一列有缺失数据，找出是哪些行

abb_pop_area['area (sq. mi)'].isnull()   # 判断area(sq. mi)列中存在的空值有哪些true

abb_pop_area.loc[abb_pop_area['area (sq. mi)'].isnull()]  # 将area(sq. mi)的空值对应的行数据取出

9.去除含有缺失数据的行

drop_index = abb_pop_area.loc[abb_pop_area['area (sq. mi)'].isnull()].index  # 获取行索引

abb_pop_area.drop(labels=drop_index,axis=0,inplace=True)   # 根据行索引进行行数据的删除

10.找出2010年的全民人口数据，基于df进行条件查询

abb_pop_area.query('ages == "total" & year == 2010')

11.计算各州的人口密度

abb_pop_area['midu'] = abb_pop_area['population'] / abb_pop_area['area (sq. mi)']

abb_pop_area.head()

12.排序，并找出人口密度最高的五个州,sort_values根据值排序

abb_pop_area.sort_values(by='midu',ascending=False)

# ascending表示是升序还是降序

人口分析案例总结：
1. 读取文件：pd.read_csv('文件路径')
2. 查看每一列的详细信息：data.info()
3. df的条件查询：data.query('ages == "total" & year == 2010')
4. 对某一列数据进行排序：data.sort_values(by='midu',ascending=False)

2. 2012美国大选献金项目数据分析

需求：
1. 加载数据，查看数据的基本信息
2. 指定数据截取，将如下字段的数据进行提取，其他数据舍弃
  
  cand_nm ：候选人姓名
  
  contbr_nm ：捐赠人姓名
  
  contbr_st ：捐赠人所在州
  
  contbr_employer ：捐赠人所在公司
  
  contbr_occupation ：捐赠人职业
  
  contb_receipt_amt ：捐赠数额（美元）
  
  contb_receipt_dt ：捐款的日期
3. 对新数据进行总览df.info(),查看是否存在缺失数据
4. 用统计学指标快速描述数值型属性的概要。df.describe()
5. 空值处理。可能因为忘记填写或者保密等等原因，相关字段出现了空值，将其填充为NOT PROVIDE
6. 异常值处理。将捐款金额<=0的数据删除
7. 新建一列为各个候选人所在党派party
8. 查看party这一列中有哪些不同的元素
9. 统计party列中各个元素出现次数
10. 查看各个党派收到的政治献金总数contb_receipt_amt
11. 查看具体每天各个党派收到的政治献金总数contb_receipt_amt
12. 将表中日期格式转换为'yyyy-mm-dd'
13. 查看老兵(捐献者职业)DISABLED VETERAN主要支持谁
14. 找出各个候选人的捐赠者中，捐赠金额最大的人的职业以及捐献额

代码实现：

1.加载数据，查看数据的基本信息

df = pd.read_csv('./data/usa_election.txt')

df.head()

2.指定数据截取，将如下字段的数据进行提取，其他数据舍弃

df = df[['cand_nm','contbr_nm','contbr_st','contbr_employer','contbr_occupation','contb_receipt_amt','contb_receipt_dt']]

3.对新数据进行总览df.info(),查看是否存在缺失数据

df.info()

数据总览如下：

"""

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 536041 entries, 0 to 536040

Data columns (total 7 columns):

cand_nm              536041 non-null object

contbr_nm            536041 non-null object

contbr_st            536040 non-null object

contbr_employer      525088 non-null object

contbr_occupation    530520 non-null object

contb_receipt_amt    536041 non-null float64

contb_receipt_dt     536041 non-null object

dtypes: float64(1), object(6)

memory usage: 28.6+ MB

"""

5.用统计学指标快速描述数值型属性的概要。df.describe()

df.describe()

5.空值处理。可能因为忘记填写或者保密等等原因，相关字段出现了空值，将其填充为NOT PROVIDE

# 使用NOT PROVIDE对空值进行填充

df.fillna(value='NOT PROVIDE',inplace=True)

# 重新查看列是否有空值

df.info()

数据总览如下：

"""

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 536041 entries, 0 to 536040

Data columns (total 7 columns):

cand_nm              536041 non-null object

contbr_nm            536041 non-null object

contbr_st            536041 non-null object

contbr_employer      536041 non-null object

contbr_occupation    536041 non-null object

contb_receipt_amt    536041 non-null float64

contb_receipt_dt     536041 non-null object

dtypes: float64(1), object(6)

memory usage: 28.6+ MB

"""

6.异常值处理。将捐款金额<=0的数据删除

df = df.loc[~(df['contb_receipt_amt'] <= 0)]

7.新建一列为各个候选人所在党派party

# 不同候选人党派对应表

parties = {

  'Bachmann, Michelle': 'Republican',

  'Romney, Mitt': 'Republican',

  'Obama, Barack': 'Democrat',

  "Roemer, Charles E. 'Buddy' III": 'Reform',

  'Pawlenty, Timothy': 'Republican',

  'Johnson, Gary Earl': 'Libertarian',

  'Paul, Ron': 'Republican',

  'Santorum, Rick': 'Republican',

  'Cain, Herman': 'Republican',

  'Gingrich, Newt': 'Republican',

  'McCotter, Thaddeus G': 'Republican',

  'Huntsman, Jon': 'Republican',

  'Perry, Rick': 'Republican'

 }

# 先查看共有多少个不同的候选人

df['cand_nm'].unique()

# 查看候选人的个数

df['cand_nm'].nunique()

# 利用映射为每个候选人添加党派信息

df['party'] = df['cand_nm'].map(parties)

df.head()

8.查看party这一列中有哪些不同的元素

df['party'].unique()

9.统计party列中各个元素出现次数

df['party'].value_counts()  # value_counts()统计Series中不同元素出现的次数

10.查看各个党派收到的政治献金总数contb_receipt_amt

# 应用分组

df.groupby(by='party')['contb_receipt_amt'].sum()

11.查看具体每天各个党派收到的政治献金总数contb_receipt_amt

df.groupby(by=['contb_receipt_dt','party'])['contb_receipt_amt'].sum()

12.将表中日期格式转换为'yyyy-mm-dd'

# 应用运算工具

def transform_date(d):

    day,month,year = d.split('-')

    month = months[month]

    return '20'+year+'-'+str(month)+'-'+day

df['contb_receipt_dt'] = df['contb_receipt_dt'].map(transform_date)

df.head()

13.查看老兵(捐献者职业)DISABLED VETERAN主要支持谁

# 1.取出老兵这个职业对应的行数据

old_bing_df = df.loc[df['contbr_occupation'] == 'DISABLED VETERAN']

# 2.根据竞选者分组

old_bing_df.groupby(by='cand_nm')['contb_receipt_amt'].sum()

14.找出各个候选人的捐赠者中，捐赠金额最大的人的职业以及捐献额

df.groupby(by='cand_nm')['contb_receipt_amt'].max()

# 此方法有不能满足要求，待更新

2012美国大选献金项目数据分析案例总结：
1. 用统计学指标快速描述数值型属性的概要：df.describe()
2. 统计Series中不同元素出现的次数：Series_obj.value_counts()