手头现在有一份福布斯2016年全球上市企业2000强排行榜的数据，但原始数据并不规范，需要处理后才能进一步使用。

本文通过实例操作来介绍用pandas进行数据整理。

照例先说下我的运行环境，如下：

windows 7， 64位
python 3.5
pandas 0.19.2版本

在拿到原始数据后，我们先来看看数据的情况，并思考下我们需要什么样的数据结果。

下面是原始数据：

在本文中，我们需要以下的初步结果，以供以后继续使用。

可以看到，原始数据中，跟企业相关的数据中（“Sales”，“Profits”，“Assets”，“Market_value”），目前都是不是可以用来计算的数字类型。

原始内容中包含货币符号”$“，“-”，纯字母组成的字符串以及其他一些我们认为异常的信息。更重要的是，这些数据的单位并不一致。分别有以“B”（Billion，十亿）和“M”（Million，百万）表示的。在后续计算之前需要进行单位统一。

1 处理方法 Method-1

首先想到的处理思路就是将数据信息分别按十亿（’B’）和百万(‘M’)进行拆分，分别进行处理，最后在合并到一起。过程如下所示。

加载数据，并添加列的名称

import pandas as pd

df_2016 = pd.read_csv('data_2016.csv', encoding='gbk',header=None)

# 更新列名

df_2016.columns = ['Year', 'Rank', 'Company_cn','Company_en',

                   'Country_en', 'Sales', 'Profits', 'Assets', 'Market_value']

print('the shape of DataFrame: ', df_2016.shape)

print(df_2016.dtypes)

df_2016.head(3)

获取单位为十亿（’B’）的数据

# 数据单位为 B的数据（Billion，十亿）

df_2016_b = df_2016[df_2016['Sales'].str.endswith('B')]

print(df_2016_b.shape)

df_2016_b

获取单位为百万(‘M’)的数据

# 数据单位为 M的数据（Million，百万）

df_2016_m = df_2016[df_2016['Sales'].str.endswith('M')]

print(df_2016_m.shape)

df_2016_m

这种方法理解起来比较简单，但操作起来会比较繁琐，尤其是如果有很多列数据需要处理的话，会花费很多时间。

进一步的处理，我这里就不描述了。当然，各位可以试试这个方法。

下面介绍稍微简单一点的方法。

2 处理方法 Method-2

2.1 加载数据

第一步还是加载数据，跟Method-1是一样的。

下面来处理’Sales’列

2.2 替换相关的异常字符

首先是替换相关的异常字符，包括美元的货币符号’$’，纯字母的字符串’undefined’，以及’B’。这里，我们想统一把数据的单位整理成十亿，所以’B’可以直接进行替换。而’M’需要更多的处理步骤。

2.3 处理’M’相关的数据

处理含有百万“M”为单位的数据，即以“M”结尾的数据，思路如下：

（1）设定查找条件mask；

（2）替换字符串“M”为空值

（3）用pd.to_numeric()转换为数字

（4）除以1000，转换为十亿美元，与其他行的数据一致

上面两个步骤相关的代码如下：

# 替换美元符号

df_2016['Sales'] = df_2016['Sales'].str.replace('$','')

# # 查看异常值，均为字母（“undefined”）

# df_2016[df_2016['Sales'].str.isalpha()]

# 替换异常值“undefined”为空白

# df_2016['Sales'] = df_2016['Sales'].str.replace('undefined','')

df_2016['Sales'] = df_2016['Sales'].str.replace('^[A-Za-z]+$','')

# 替换符号十亿美元“B”为空白，数字本身代表的就是十亿美元为单位

df_2016['Sales'] = df_2016['Sales'].str.replace('B','')

# 处理含有百万“M”为单位的数据，即以“M”结尾的数据

# 思路：

# （1）设定查找条件mask；

# （2）替换字符串“M”为空值

# （3）用pd.to_numeric()转换为数字

# （4）除以1000，转换为十亿美元，与其他行的数据一致

mask = df_2016['Sales'].str.endswith('M')

df_2016.loc[mask, 'Sales'] = pd.to_numeric(df_2016.loc[mask, 'Sales'].str.replace('M', ''))/1000

df_2016['Sales'] = pd.to_numeric(df_2016['Sales'])

print('the shape of DataFrame: ', df_2016.shape)

print(df_2016.dtypes)

df_2016.head(3)

用同样类似的方法处理其他列

可以看到，这个方法比第一种方法还是要方便很多。当然，这个方法针对DataFrame的每列数据都要进行相关的操作，如果列数多了，也还是比较繁琐的。

有没有更方便一点的方法呢。答案是有的。

插播一条硬广：技术文章转发太多。文章来自微信公众号“Python数据之道”（ID：PyDataRoad）。

3 处理方法 Method-3

在Method-2的基础上，将处理方法写成更通用的数据处理函数，根据数据的结构，拓展更多的适用性，则可以比较方便的处理相关数据。

3.1 加载数据

第一步还是加载数据，跟Method-1是一样的。

3.2 编写数据处理的自定义函数

参考Method-2的处理过程，编写数据处理的自定义函数’pro_col’，并在Method-2的基础上拓展其他替换功能，使之适用于这四列数据（“Sales”，“Profits”，“Assets”，“Market_value”）。

函数编写的代码如下：

def pro_col(df, col):

    # 替换相关字符串，如有更多的替换情形，可以自行添加

    df[col] = df[col].str.replace('$','')

    df[col] = df[col].str.replace('^[A-Za-z]+$','')

    df[col] = df[col].str.replace('B','')

    # 注意这里是'-$'，即以'-'结尾，而不是'-'，因为有负数

    df[col] = df[col].str.replace('-$','')

    df[col] = df[col].str.replace(',','')

    # 处理含有百万“M”为单位的数据，即以“M”结尾的数据

    # 思路：

    # （1）设定查找条件mask；

    # （2）替换字符串“M”为空值

    # （3）用pd.to_numeric()转换为数字

    # （4）除以1000，转换为十亿美元，与其他行的数据一致

    mask = df[col].str.endswith('M')

    df.loc[mask, col] = pd.to_numeric(df.loc[mask, col].str.replace('M',''))/1000

    # 将字符型的数字转换为数字类型

    df[col] = pd.to_numeric(df[col])

    return df

3.3 将自定义函数进行应用

针对DataFrame的每列，应用该自定义函数，进行数据处理，得到需要的结果。

pro_col(df_2016, 'Sales')

pro_col(df_2016, 'Profits')

pro_col(df_2016, 'Assets')

pro_col(df_2016, 'Market_value')

print('the shape of DataFrame: ', df_2016.shape)

print(df_2016.dtypes)

df_2016.head()

当然，如果DataFrame的列数特别多，可以用for循环，这样代码更简洁。代码如下：

cols = ['Sales', 'Profits', 'Assets', 'Market_value']

for col in cols:

    pro_col(df_2016, col)

print('the shape of DataFrame: ', df_2016.shape)

print(df_2016.dtypes)

df_2016.head()

最终处理后，获得的数据结果如下：

Pandas数据处理实战：福布斯全球上市企业排行榜数据整理的更多相关文章

Python项目实战：福布斯系列之数据采集
1 数据采集概述开始一个数据分析项目,首先需要做的就是get到原始数据,获得原始数据的方法有多种途径.比如: 获取数据集(dataset)文件使用爬虫采集数据直接获得excel.csv及其他数据 ...
福布斯最佳雇主榜：谷歌母公司Alphabet再登榜首微软次之
http://www.sohu.com/a/259018538_114774 站长之家(ChinaZ.com) 10月12日消息:在福布斯发布的最新全球最佳雇主榜单中,谷歌母公司Alphabet以满 ...
Trunk Club：颠覆男士时装零售的创业公司_第1页_福布斯中文网
Trunk Club:颠覆男士时装零售的创业公司_第1页_福布斯中文网 Trunk Club:颠覆男士时装零售的创业公司
Quality Over Quantity: 更少一些，更好一些_第1页_福布斯中文网
Quality Over Quantity: 更少一些,更好一些_第1页_福布斯中文网 Quality Over Quantity: 更少一些,更好一些 2013年04月09日 ...
NET-A-PORTER为何难以模仿？_全文显示_生活福布斯中文网
NET-A-PORTER为何难以模仿?_全文显示_生活福布斯中文网 NET-A-PORTER为何难以模仿?
深圳市共创力咨询为某大型上市企业提供两天的UCD内训与辅导服务！
2017年5月23和24日两天,深圳市共创力咨询为国内某大型上市企业提供了为期两天的内训与辅导服务.本次执行培训与辅导任务的是UCD(基于用户体验的设计)资深顾问蔷薇女士.蔷薇老师分别从UCD理论.U ...
Pandas（python）数据处理：只对某一列DataFrame数据进行归一化
处理数据要用到Pandas,但是没有学过,不知道是否有直接对某一列归一化的方法调用.自己倒弄了下.感觉还是比较麻烦. 使用Pandas读取到数组之后想把其中的'MonthlyIncome'一列进行归一 ...
SQL Server 2016五大优势挖掘企业用户数据价值
SQL Server 2016五大优势挖掘企业用户数据价值转载自:http://soft.zdnet.com.cn/software_zone/2016/0318/3074442.shtml 3月1 ...
阿里大数据产品Dataphin上线公共云，将助力更多企业构建数据中台
日前,由阿里数据打造的智能数据构建与管理Dataphin,重磅上线阿里云-公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客户高效自动化 ...

随机推荐

开涛spring3(2.1) - IoC基础
2.1.1 IoC是什么 Ioc—Inversion of Control,即“控制反转”,不是什么技术,而是一种设计思想.在Java开发中,Ioc意味着将你设计好的对象交给容器控制,而不是传统的在 ...
Lua学习（1）——table
table类型实现了“关联数组”.“关联数组”是一种具有特殊索引方式的数组.不仅可以通过证书来索引它,还可以使用字符串或其他类型(除了nil)来索引它.table是Lua中主要的数据结构机制(事实也是 ...
kafka 0.10.2 消息生产者(producer)
package cn.xiaojf.kafka.producer; import org.apache.kafka.clients.producer.*; import org.apache.kafk ...
从零自学Hadoop(23)：Impala介绍及安装
阅读目录序介绍安装系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇, ...
VR全景智慧城市——商家的需求才是全景市场的核心竞争力
消费者视角痛点:比如酒店消费行业,很多消费者在预订酒店过程中,都遇到过这样的场景:网上照片里酒店房间看着宽敞明亮,格调不凡,感觉非常喜欢,等真正推开房门插上房卡一看,却大失所望.在酒店行业,网上照片和 ...
织梦dedecms列表页dede:pagelist分页问题
pagelist是dede定义的一个分页标签.有时直接引用这个标签的时候,会出现分页标签变形问题.我在使用非默认模板的时候就遇到过两次. pagelist本身就有一些样式是在include/arc.l ...
学习笔记TF019:序列分类、IMDB影评分类
序列分类,预测整个输入序列的类别标签.情绪分析,预测用户撰写文字话题态度.预测选举结果或产品.电影评分. 国际电影数据库(International Movie Database)影评数据集.目标值二 ...
小K的H5之旅-实战篇（一）
一.前言本K在经过两个星期的html和css学习之后,第一次去尝试完成一个网站主页的制作.在四天之后,本K也终于完成了杰瑞教育主页的html和css部分,至于部分涉及js的部分,因为本K还没有学习过 ...
java设计模式面试考点
分类(常见的设计模式) 1．创建型模式 a) 工厂模式 b) 抽象工厂模式 c) 单例模式 d) 建造者模式 2．结构型模式 a) 适配器模式 b) 装饰器模式 c) 桥接模式 d) 代理模式 3．行 ...
网页中使用CSS和JS阻止用户选择内容
CSS实现 body{ -webkit-user-select:none; -moz-user-select:none; -ms-user-select:none; user-select:none; ...

Pandas数据处理实战：福布斯全球上市企业排行榜数据整理