Pandas之分组

假如我们现在有这样一组数据：星巴克在全球的咖啡店信息，如下图所示。数据来源：starbucks_store_locations。我们想要统计中国每个城市的星巴克商店的数量，那我们应该怎么做呢？

在pandas中，为我们提供了一个处理分组问题的函数groupby():

# coding=utf-8

import pandas as pd

file_path = "./starbucks_store_worldwide.csv"

# 设置最多输出20行

pd.set_option('display.max_rows',20)

df = pd.read_csv(file_path)

df_CN = df[df["Country"]=="CN"]

grouped_CN = df_CN.groupby(by="City")

print(grouped_CN["Brand"].count())

结果如下：

City

Admiralty          2

Causeway Bay       5

Central            1

Chaiwan            1

Changshu           1

Changzhou          1

Fortress Hill      1

Hangzhou           2

Hong Kong        104

Jiaxing            2

                ...

长春市               10

长沙市               26

阳江市                1

青岛市               28

靖江市                2

鞍山市                3

马鞍山                3

高邮市                1

黄石市                1

龙岩市                2

Name: Brand, Length: 197, dtype: int64

Process finished with exit code 0

假如我们不想先提取中国的数据再分组，而是想一步到位应该怎么做呢？

# coding=utf-8

import pandas as pd

file_path = "./starbucks_store_worldwide.csv"

# 设置最多输出20行

pd.set_option('display.max_rows',20)

df = pd.read_csv(file_path)

grouped = df[df["Country"] == "CN"]["Brand"].groupby(by=[df["Country"], df["City"]]).count()

print(grouped)

结果如下：

Country  City

CN       Admiralty          2

         Causeway Bay       5

         Central            1

         Chaiwan            1

         Changshu           1

         Changzhou          1

         Fortress Hill      1

         Hangzhou           2

         Hong Kong        104

         Jiaxing            2

                         ...

         长春市               10

         长沙市               26

         阳江市                1

         青岛市               28

         靖江市                2

         鞍山市                3

         马鞍山                3

         高邮市                1

         黄石市                1

         龙岩市                2

Name: Brand, Length: 197, dtype: int64

我们可以发现，与上面结果不同的是，这次的索引成了2列，不但有city，还有Country。这是因为我们再用group分组的时候传入了2个参数进去。

这里需要注意，最终的结果其实是包含双列索引的单列1维数组，类型是pandas.core.series.Series

Pandas之分组的更多相关文章

Pandas | GroupBy 分组
任何分组(groupby)操作都涉及原始对象的以下操作之一: 分割对象应用一个函数结合的结果在许多情况下,我们将数据分成多个集合,并在每个子集上应用一些函数.在应用函数中,可以执行以下操作: 聚 ...
pandas之分组计算笔记
分组计算三部曲:拆分-->应用-->合并分组:就是按照行或列把相同索引的部分分到一起分组的关键词为groupby,分组后我们就可以对每组数据进行同一操作,返回的是每组数据分别计算后的结 ...
pandas groupby 分组操作
最一般化的groupby 方法是apply. tips=pd.read_csv('tips.csv') tips[:5] 新生成一列 tips['tip_pct']=tips['tip']/tips[ ...
pandas用法之二
1,函数应用 ①map() 将函数作用于一个Series的每一个函数(不能是DataFrame) 类似于Python的高阶函数map() 函数可以是Numpy中的通用函数,也可以是自定义函数优点:代 ...
Pandas模块：表计算与数据分析
目录 Pandas之Series Pandas之DataFrame 一.pandas简单介绍 1.pandas是一个强大的Python数据分析的工具包.2.pandas是基于NumPy构建的. 3.p ...
机器学习三剑客之Pandas
pandas Pandas是基于Numpy开发出的,专门用于数据分析的开源Python库 Pandas的两大核心数据结构 Series(一维数据) Series 创建Series的方法 ...
Pandas：表计算与数据分析
目录 Pandas之Series Pandas之DataFrame 一.pandas简单介绍 1.pandas是一个强大的Python数据分析的工具包.2.pandas是基于NumPy构建的. 3.p ...
（数据科学学习手札69）详解pandas中的map、apply、applymap、groupby、agg
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方 ...
利用Python进行数据分析：【Pandas】（Series+DataFrame）
一.pandas简单介绍 1.pandas是一个强大的Python数据分析的工具包.2.pandas是基于NumPy构建的.3.pandas的主要功能 --具备对其功能的数据结构DataFrame.S ...

随机推荐

11.17 luffycity(7)完结
2018-11-17 15:59:01 路飞项目已经完结!后面已是flask的学习!然后还有十几天的课程等回学校再看明天归校!! 开始全面整理自己学习的知识,整理博客!还有好多面试题!233333 ...
算法提高最小方差生成树（Kruskal）_模板
算法提高最小方差生成树时间限制:1.0s 内存限制:256.0MB 问题描述给定带权无向图,求出一颗方差最小的生成树. 输入格式输入多组测试数据.第一行为N,M,依次是 ...
LCA || BZOJ 1602: [Usaco2008 Oct]牧场行走 || Luogu P2912 [USACO08OCT]牧场散步Pasture Walking
题面:[USACO08OCT]牧场散步Pasture Walking 题解:LCA模版题代码: #include<cstdio> #include<cstring> #inc ...
程序中打印当前进程的调用堆栈(backtrace)
为了方便调式程序,产品中需要在程序崩溃或遇到问题时打印出当前的调用堆栈.由于是基于Linux的ARM嵌入式系统,没有足够的空间来存放coredump文件. 实现方法,首先用__builtin_fram ...
MongoDB复制集原理、环境配置及基本测试详解
一.MongoDB复制集概述 MongoDB复制集实现了冗余备份和故障转移两大功能,这样能保证数据库的高可用性.在生产环境,复制集至少包括三个节点,其中一个必须为主节点,一个从节点,一个仲裁节点.其中 ...
html form禁止表单回车自动提交（通常原因是为在ajax提交前、后进行js判断控制）
@*onkeydown事件用于禁止回车自动提交form,这样就不经过js控制跳转*@ <form action="/Account/CheckPsw" method=&quo ...
转：ArcGIS API For JavaScript官方文档（二十）之图形和要素图层——①Graphics概述
原文地址:ArcGIS API For JavaScript官方文档(二十)之图形和要素图层——①Graphics概述 ArcGIS JavaScript API允许在地图上绘制graphic(图形) ...
python->读写excel
from openpyxl import load_workbook#将一个excel文档中的数据存放内存中,即变量wb保存了该excel的所有信息wb = load_workbook(r" ...
SQL[Err] ORA-00933: SQL command not properly ended
原文链接:https://www.cnblogs.com/godtrue/p/3784526.html 1:可能SQL语句中关键字前后缺少空格 2:Oracle 给表起别名时,直接在表名的后面空格别名 ...
Redis入门到高可用（十三）—— 发布订阅
一.模型二.主要API 1.publish(发布命令) 2.subcribe(订阅) 3.取消订阅(unsubcribe) 4.其他API 三.消息队列功能 redis实现消息队列功能应用场景:抢 ...

Pandas之分组

Pandas之分组的更多相关文章

随机推荐

热门专题