这一节我们将会介绍几种不同的合并数据的方法.

在我们这个不动产投资的例子中, 我们希望获取 51 个州的房产数据, 并把它们组合起来. 我们这样做有很多原因. 这样做既便于我们做分析, 同时也可以占用更少的内存. 目前, 每个 dataframe 都有一个 "date" 列和一个 "value" 列. 有一个规律是每个 dataframe 的 "date" 列的值都是完全重复的. 也就是说我们可以使这个列成为一个公共列.

下面来讲下具体合并数据的方法. 主要有4种方法: Concatenation, joining, merging, and appending. 我们先讲 Concatenation. 下面是一个简单的例子:

import pandas as pd

df1 = pd.DataFrame({'HPI':[80,85,88,85],
'Int_rate':[2, 3, 2, 2],
'US_GDP_Thousands':[50, 55, 65, 55]},
index = [2001, 2002, 2003, 2004]) df2 = pd.DataFrame({'HPI':[80,85,88,85],
'Int_rate':[2, 3, 2, 2],
'US_GDP_Thousands':[50, 55, 65, 55]},
index = [2005, 2006, 2007, 2008]) df3 = pd.DataFrame({'HPI':[80,85,88,85],
'Int_rate':[2, 3, 2, 2],
'Low_tier_HPI':[50, 52, 50, 53]},
index = [2001, 2002, 2003, 2004])

df1 和 df3 的索引完全相同, 但是有不同的列. df2 和 df3 的索引不同, 列也不同. 下面看一个简单的用 concatentation 合并数据的例子:

concat = pd.concat([df1,df2])
print(concat)

输出:

       HPI  Int_rate  US_GDP_Thousands
2001 80 2 50
2002 85 3 55
2003 88 2 65
2004 85 2 55
2005 80 2 50
2006 85 3 55
2007 88 2 65
2008 85 2 55

非常的简单. 两个被合并项的差别就在于索引不同, 列名都完全一样, 所以它们合并成了一个 dataframe. 但是在我们的例子中, 我们需要的增加更多的列, 而不是行. 那我们再来看下如果有不同的列名合并会怎样呢:

concat = pd.concat([df1,df2,df3])
print(concat)

输出:

       HPI  Int_rate  Low_tier_HPI  US_GDP_Thousands
2001 80 2 NaN 50.0
2002 85 3 NaN 55.0
2003 88 2 NaN 65.0
2004 85 2 NaN 55.0
2005 80 2 NaN 50.0
2006 85 3 NaN 55.0
2007 88 2 NaN 65.0
2008 85 2 NaN 55.0
2001 80 2 50.0 NaN
2002 85 3 52.0 NaN
2003 88 2 50.0 NaN
2004 85 2 53.0 NaN

我们看到有一些 NaN, 这是因为有的索引里不存在这个值. 但是至少所有的数据都在一起了.

以上, 就是 concatenation 的基础用法. 下面来看下 appending. appending 的用法更像是第一个 concatenation 的例子. 下面看一个具体的例子:

df4 = df1.append(df2)
print(df4)

输出:

       HPI  Int_rate  US_GDP_Thousands
2001 80 2 50
2002 85 3 55
2003 88 2 65
2004 85 2 55
2005 80 2 50
2006 85 3 55
2007 88 2 65
2008 85 2 55

上面就是 appending 合并数据的效果. 在大多数情况下, 就像是往一个数据库里插入更多行. 那么如果要合并的数据具有相同的索引呢?

df4 = df1.append(df3)
print(df4)

输出:

      HPI  Int_rate  Low_tier_HPI  US_GDP_Thousands
2001 80 2 NaN 50.0
2002 85 3 NaN 55.0
2003 88 2 NaN 65.0
2004 85 2 NaN 55.0
2001 80 2 50.0 NaN
2002 85 3 52.0 NaN
2003 88 2 50.0 NaN
2004 85 2 53.0 NaN

哦, 这看来不是我们想要的结果.
另外, 我们还可以 append 一个 series. series 可以看成是只有一列的 dataframe. series 是有索引的, 但是如果你把它转换成 list, 索引就省略了. 不论何时, df['column'] 返回的都是 series.

s = pd.Series([80,2,50], index=['HPI','Int_rate','US_GDP_Thousands'])

先看下 s 的数据结构:

HPI                 80
Int_rate 2
US_GDP_Thousands 50

再把 s 和 df1 合并:

df4 = df1.append(s, ignore_index=True)
print(df4)

输出:

    HPI  Int_rate  US_GDP_Thousands
0 80 2 50
1 85 3 55
2 88 2 65
3 85 2 55
4 80 2 50

这里在合并的时候, 我们忽略了索引, 因为 series 没有名字.

以上, 我们介绍了 Pandas 的 concatenation 和 append. 下一节, 我们将介绍 join 和 merge.

后面会持续更新, 有任何问题或者错误, 欢迎留言, 希望和大家交流学习.

基于 Python 和 Pandas 的数据分析(5) --- Concatenating and Appending的更多相关文章

  1. 基于 Python 和 Pandas 的数据分析(1)

    基于 Python 和 Pandas 的数据分析(1) Pandas 是 Python 的一个模块(module), 我们将用 Python 完成接下来的数据分析的学习. Pandas 模块是一个高性 ...

  2. 基于 Python 和 Pandas 的数据分析(4) --- 建立数据集

    这一节我想对使用 Python 和 Pandas 的数据分析做一些扩展. 假设我们是亿万富翁, 我们会想要多元化地进行投资, 比如股票, 分红, 金融市场等, 那么现在我们要聚焦房地产市场, 做一些这 ...

  3. 基于 Python 和 Pandas 的数据分析(2) --- Pandas 基础

    在这个用 Python 和 Pandas 实现数据分析的教程中, 我们将明确一些 Pandas 基础知识. 加载到 Pandas Dataframe 的数据形式可以很多, 但是通常需要能形成行和列的数 ...

  4. 基于 Python 和 Pandas 的数据分析(7) --- Pickling

    上一节我们介绍了几种合并数据的方法. 这一节, 我们将重新开始不动产的例子. 在第四节中我们写了如下代码: import Quandl import pandas as pd fiddy_states ...

  5. 基于 Python 和 Pandas 的数据分析(3) --- 输入/输出 基础

    这一节, 我们要讨论 Pandas 的输入与输出, 并且应用在现实的实际例子中. 为了得到大量的数据, 向大家推荐一个网站 Quandl. Quandl 有很多免费和付费的资源. 这个网站最大的优势在 ...

  6. 基于 Python 和 Pandas 的数据分析(6) --- Joining and Merging

    这一节我们将看一下如何通过 join 和 merge 来合并 dataframe. import pandas as pd df1 = pd.DataFrame({'HPI':[80,85,88,85 ...

  7. python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言)

    python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...

  8. 万字长文,Python数据分析实战,使用Pandas进行数据分析

    文章目录 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家 ...

  9. 基于python 信用卡评分系统 的数据分析

    基于python 信用卡评分系统 的数据分析 import pandas as pd import matplotlib.pyplot as plt #导入图像库 from sklearn.ensem ...

随机推荐

  1. Shell for while 循环

    li@ubuntu:~/test$ cat a.sh #!/bin/bash for loop in 1 2 3 4 5 do echo "The value is : $loop" ...

  2. 配置方案:Redis持久化RDB和AOF

    Redis持久化方案 Redis是内存数据库,数据都是存储在内存中,为了避免进程退出导致数据的永久丢失,需要定期将Redis中的数据以某种形式(数据或命令)从内存保存到硬盘.当下次Redis重启时,利 ...

  3. Django框架----模板继承和静态文件配置

    母板 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8& ...

  4. amoeba读写分离

    第一单元   高性能mysql读写分离的实现 5.1      mysql读写分离 5.1.1  mysql读写分离概述 5.1.2  mysql读写分离原理 5.2      mysql读写分离配置 ...

  5. vue 组件之间 的通信

      组件之间通信: 同级组件之间通信:两个组件定义应用到同一个vue实例之下: <div id="webapp" class="box">    & ...

  6. django模板-if标签和for标签

    在django中,标签写在{%  标签  %}中 if else标签 ①通过if进行条件判断 views.py from django.shortcuts import render def inde ...

  7. sqlloader parallel调用报ORA-26002: table has index defined upon it.解决方法

    ORA-26002: table has index defined upon it. This issue is caused when using the bulk load option in ...

  8. Java1的内容(学期总结)

  9. KPI 私有CA

    openssl总结及私有CA的搭建 搭建CA服务器 CA(证书颁发机构)服务器配置图解过程(1) 私有CA服务器的搭建 搭建CA服务器 使用OpenSSL搭建CA Linux加密和解密.openssl ...

  10. UML建模类图【2】--☆☆

    虚线箭头指向依赖: 实线箭头指向关联: 虚线三角指向接口: 实线三角指向父类: 空心菱形能分离而独立存在,是聚合: 实心菱形精密关联不可分,是组合: 上面是UML的语法. 在画类图的时候,理清类和类之 ...