pandas实战——对星巴克数据的分析

一、实验对象

实验对象为星巴克在全球的门店数据，我们可以使用pandas对其进行简单的分析，如分析每个国家星巴克的数量，根据门店数量对国家进行排序等。

二、数据分析

1、读取数据并获取数据行列数

首先读取数据：

import numpy as np

import pandas as pd

starbucks = pd.read_csv("D:\\directory.csv")

print "数据的列标签如下："

print starbucks.columns

print "每列的数据类型："

print starbucks.dtypes

print "文件行数："

print len(starbucks.index)

print "文件列数:"

print starbucks.columns.size

输出：

数据的列标签如下：

Index([u'Brand', u'Store Number', u'Store Name', u'Ownership Type',

       u'Street Address', u'City', u'State/Province', u'Country', u'Postcode',

       u'Phone Number', u'Timezone', u'Longitude', u'Latitude'],

      dtype='object')

每列的数据类型：

Brand              object

Store Number       object

Store Name         object

Ownership Type     object

Street Address     object

City               object

State/Province     object

Country            object

Postcode           object

Phone Number       object

Timezone           object

Longitude         float64

Latitude          float64

dtype: object

文件行数：

25600

文件列数:

13

可以看到文件共有25600条数据，每条数据有13列。

2、查看数据

#查看文件的前五行数据

print starbucks.head()

输出：

可以通过DataFrame.head(n)来获取数据帧的前n行数据，未指定n则返回前5行，同样的函数还有DataFrame.tail(n)。上图中有些数据为NaN，如果NaN对数据处理有影响的话可以使用DataFrame.fillna(value)将NaN替换成value，或者使用DataFrame.dropna()删除含有NaN的行。本文将不对NaN做处理。

3、按照星巴克数量由多到少对国家排序

要实现这个功能需要用到DataFrame.groupby()函数，相当于sql中的group by。在本例中可以使用starbucks.groupby(["Country"])来对星巴克按国家分组，然后使用starbucks.groupby(["Country"]).size()求得每个国家有多少星巴克。

df = starbucks.groupby(["Country"]).size().reset_index()

输出：

Country

AD        1

AE      144

AR      108

AT       18

AU       22

AW        3

AZ        4

BE       19

BG        5

BH       21

BN        5

BO        4

BR      102

BS       10

CA     1468

CH       61

CL       96

CN     2734

CO       11

CR       11

CW        3

CY       10

CZ       28

DE      160

DK       21

EG       31

ES      101

FI        8

FR      132

GB      901

      ...

LU        2

MA        9

MC        2

MX      579

MY      234

NL       59

NO       17

NZ       24

OM       12

PA        5

PE       89

PH      298

PL       53

PR       24

PT       11

QA       18

RO       27

RU      109

SA      102

SE       18

SG      130

SK        3

SV       11

TH      289

TR      326

TT        3

TW      394

US    13608

VN       25

ZA        3

Length: 73, dtype: int64

然后我们将上一步的结果使用reset_index()方法封装成一个新的DataFrame，然后对这个DataFrame排序即可。

#根据每个国家的国家名和星巴克数量重建为一个DataFrame

df = starbucks.groupby(["Country"]).size().reset_index()

#查看df的前5行数据

print df.head()

#修改列名（将“0”改为“Nums”）

df.columns=["Country", "Nums"]

#按照星巴克数量由多到少对国家排序

df.sort_values(by=["Nums"], ascending=False).head()

输出：

 Country    0

0      AD    1

1      AE  144

2      AR  108

3      AT   18

4      AU   22

   Country   Nums

70      US  13608

17      CN   2734

14      CA   1468

37      JP   1237

39      KR    993

可以看到，美国的星巴克最多，有13608家，其次是中国、加拿大、日本、韩国。由于篇幅限制只显示了排序后的5行，可以去掉head()显示全部数据。

4、按星巴克数量多少对中国城市排序

首先要在所有国家的数据中选择中国的数据，可以使用布尔索引实现这一目的：

#选择中国的数据

df = starbucks[starbucks["Country"]=="CN"]

#统计每个城市的星巴克数量

df.groupby(["City"]).size()

输出：

City

Admiralty            2

Causeway Bay         5

Central              1

Chaiwan              1

Changshu             1

Changzhou            1

Fortress Hill        1

Hangzhou             2

Hong Kong          104

Jiaxing              2

Jinhua               1

Kowloon             19

Kowloon Bay          1

Kowloon Tong         1

Lantau Island        2

Macau               13

Mong Kok             2

N.T.                 2

Nanjing              1

Nantong              4

New Territories      7

Ningbo               3

Quarry Bay           3

ShangHai             2

Shanghai             2

Shantin              1

Stanley              1

Suzhou               3

Tai Koo Shing        1

Tin Hau              1

                  ...

萧山市                  1

蚌埠市                  1

衡阳市                  3

衢州市                  3

襄樊市                  1

襄阳市                  2

西宁市                  3

西安市                 40

诸暨市                  2

贵阳                   8

贵阳市                  1

连云港                  1

连云港市                 3

邢台市                  1

邯郸                   1

郑州市                 18

重庆市                 41

金华市                 11

银川市                  2

镇江市                  9

长春市                 10

长沙市                 26

阳江市                  1

青岛市                 28

靖江市                  2

鞍山市                  3

马鞍山                  3

高邮市                  1

黄石市                  1

龙岩市                  2

Length: 197, dtype: int64

可以看到数据不是很规范，城市名称既有中文又有英文，而且上海被存储为ShangHai和Shanghai。对于上海的问题，我们将拼音全部改为小写即可；对于中文和拼音混用的问题，可以使用相应的python库（如库pinyin）将中文转换为拼音后作统计。

首先安装库pinyin，如果是在命令行里运行的python，直接pip install pinyin，安装成功后import pinyin即可。我是在jupyter notebook里面写的，外部pip安装的模块无法导入，所以使用下面的方法（或者使用conda命令安装）：

import pip

pip.main(['install', 'pinyin'])

安装后导入并做相应的处理：

import pinyin

#选择中国的数据

df = starbucks[starbucks["Country"]=="CN"]

#需要拷贝一下，不然会出现“A value is trying to be set on a copy of a slice from a DataFrame.”的警告

df1 = df.copy()

#将城市名改为小写

df1["City"] = df1["City"].apply(lambda x:x.lower())

df2 = df1.copy()

#将汉字城市名改为小写拼音

df2["City"] = df2["City"].apply(lambda x:pinyin.get(x, format="strip", delimiter="")[0:-3]) #去掉“市”的拼音

#统计每个城市的星巴克数量

df2.groupby(["City"]).size()

输出：

City

admira            2

anshan            3

bangbu            1

baoding           3

baoji             1

baotou            4

beihai            1

beijing         234

causeway          5

cent              1

chai              1

chang             1

changchun        10

changsha         26

changshu          6

changz            1

changzhou        26

chengde           1

chengdu          98

cixi              5

dali              1

dalian           25

danzhou           1

daqing            2

deyang            2

dezhou            2

dongguan         31

dongyang          1

dongying          1

fenghua           2

               ...

yancheng          6

yangjiang         1

yangzhong         1

yangzhou         12

yanji             1

yantai            8

yichang           4

yinchuan          2

yingkou           2

yiwu              2

yixing            3

yuen l            2

yueyang           2

yuyao             1

zhangjia          1

zhangjiag         1

zhangjiagang      1

zhangzhou         1

zhanjiang         4

zhaoqing          1

zhengzhou        18

zhenjiang         9

zhongqing        41

zhongshan        11

zhous             1

zhoushan          5

zhuhai           14

zhuji             2

zhuzhou           2

zibo              5

Length: 192, dtype: int64

这里使用到了DataFrame.apply(func)方法，该方法将函数func应用到整个DataFrame上，也可以通过指定axis参数来指定每一行或每一列的数据应用函数func。

接下来使用reset_index方法将上一步得到的数据封装到一个新的DataFrame中排序即可。

df3 = df2.groupby(["City"]).size().reset_index()

#更改列索引名称

df3.columns = ["City", "Nums"]

print df3.sort_values(by=["Nums"], ascending=False).head()

输出：

          City  Nums

121   shanghai   542

7      beijing   234

46    hangzhou   117

126   shenzhen   113

36   guangzhou   106

可以看到在中国，上海的星巴克最多，有542家，其次的是北京、杭州、深圳和广州，去掉.head()可以查看所有城市的数据。

三、总结

本文主要按照星巴克数量对国家和中国的城市进行排序，用到的知识有：

使用DataFrame.groupby()方法对DataFrame按照一列或多列分组；
使用布尔索引选择数据；
使用DataFrame.reset_index()方法重新指定索引（也就是把原DataFrame的行索引也当做数据并重新指定索引），该方法返回一个新的DataFrame；
通过对DataFrame.columns的赋值，重新指定列标签；
使用DataFrame.apply(func)方法，将函数func应用到整个DataFrame上，也可以通过指定axis参数来指定每一行或每一列的数据应用函数func。
使用DataFrame.sort()方法对DataFrame按照某一列或者某几列进行排序。

我们也可以看到一些pandas的操作可以与SQL操作练习起来：

1、Where语句

在上文中我们使用布尔索引选择了中国的数据df = starbucks[starbucks["Country"]=="CN"]，这一点很像SQL里面的where语句select * from starbucks where Country="CN"。

2、Select语句

starbucks有很多列，如Country，City，Brand，Postcode等，如果我们要从所有列中选择两列Country和City，则pandas可以使用df = starbucks[["Country", "City"]]，与之对应的是SQL中的select语句select Country, City from starbucks;

3、Group by语句

上文中通过国家分组，pandas使用DataFrame.groupby()方法starbucks.groupby(["Country"])，对应的为SQL中的select * from starbucks group by Country。