本文对应代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

  在上一篇文章中我们对geopandas中的坐标参考系有了较为深入的学习,而在日常空间数据分析工作中矢量文件的读入和写出,是至关重要的环节。

  作为基于geopandas的空间数据分析系列文章的第三篇,通过本文你将会学习到geopandas中的文件IO

2 文件IO

2.1 矢量文件的读入

  geopandasfiona作为操纵矢量数据读写功能的后端,使用geopandas.read_file()读取对应类型文件,而在后端实际上是使用fiona.open来读入数据,即两者参数是保持一致的,读入的数据自动转换为GeoDataFrame,下面是geopandas.read_file()主要参数:

filename:str类型,传入文件对应的路径或url

layer:str类型,当要读入的数据格式为地理数据库.gdbQGIS中的.gpkg时,传入对应图层的名称

  下面结合上述参数,来介绍一下使用geopandas.read_file()在不同情况下读取常见格式矢量数据的方法,使用到的示例数据为中国地图,CRSEPSG:4326,本文使用到的所有数据都可以在文章开头提及的Github仓库对应本文路径下找到:

图1

2.1.1 shapefile

  作为非常常见的一种矢量文件格式,geopandasshapefile提供了很好的读取和写出支持,下面分为不同情况来介绍:

  • 完整的shapefile

  如图2,这是一个完整的shapefile

图2

  使用geopandas来读取这种形式的shapefile很简单:

import geopandas as gpd

data = gpd.read_file('geometry/china_provinces/china_provinces.shp')
print(data.crs) # 查看数据对应的crs
data.head() # 查看前5行

图3

  • 缺少投影的shapefile

  当shapefile中缺失.prj文件时,使用geopandas读入后形成的GeoDataFrame会缺失crs属性:

  

图4

  如果已经知道数据对应的CRS,可以在读入数据后补充上crs信息以进行其他操作:

import pyproj

data.crs = pyproj.CRS.from_user_input('EPSG:4326')
data.crs

图5

  • 直接读取文件夹

  当文件夹下只有单个shapefile时,可以直接读取该文件夹:

图6

  • 读取zip压缩包中的文件

  geopandas通过传入特定语法格式的文件路径信息,以支持直接读取.zip格式压缩包中的shapefile文件,主要分为两种情况。

  当文件在压缩包内的根目录时,使用下面的语法规则来读取数据:

zip://路径/xxx.zip

  譬如我们要读取图7所示的压缩包内文件:

图7

  按照对应的语法规则,读取该类型数据方式如下:

图8

  而当文件在压缩包内的文件夹中时,如图9:

  

图9

  使用下面的语法规则来读取数据:

zip://路径/xxx.zip!压缩包内指定文件路径

  将上述语法运用到上述文件:

图10

2.1.2 gdb与gpkg

  对于Arcgis中的地理数据库gdb,以及QGIS中的GeoPackage,要读取其包含的矢量数据,就要涉及到图层的概念,对应geopandas.read_file()layer参数,只需要将gdbgpkg文件路径作为filename参数,再将对应的图层名称作为layer参数传入:

  • gdb
data = gpd.read_file('geometry/china_provinces.gdb',
layer='china_provinces')
print(data.crs) # 查看数据对应的crs
data.head() # 查看前5行

图11

  • gpkg

  类似读入gdb文件:

data = gpd.read_file('geometry/china_provinces.gpkg',
layer='china_provinces',
encoding='utf-8')
print(data.crs) # 查看数据对应的crs
data.head() # 查看前5行

图12

2.1.3 GeoJSON

  作为web地图中最常使用的矢量数据格式,GeoJSON几乎被所有在线地图框架作为数据源格式,在geopandas中读取GeoJSON非常简单,只需要传入文件路径名称即可,下面我们来读入图13所示的文件:

图13
图14

2.1.4 过滤

  geopandas在0.1.0版本中新增了bbox过滤,在0.7.0版本中新增了蒙版过滤行过滤功能,可以辅助我们根据自己的需要读入原始数据中的子集,下面一一进行介绍:

  • bbox过滤

  bbox过滤允许我们在read_file()中传入一个边界框作为参数bbox,格式为(左下角x, 左下角y, 右上角x, 右上角y),这样在读入的过程中只会保留几何对象与bbox有相交的数据记录,下面我们仍然以上文中使用过的中国地图数据为例,我们在读入的过程中,传入边界框:

from shapely import geometry

data = gpd.read_file('geometry/china_provinces.json',
bbox=(100, 20, 110, 30)) %matplotlib widget
ax = data.plot()
# 绘制bbox框示意
ax = gpd.GeoSeries([geometry.box(minx=100,
miny=20,
maxx=110,
maxy=30).boundary]).plot(ax=ax, color='red')

图15

  可以看到只有跟红色框有相交的几何对象被读入。

  • 蒙版过滤

  蒙版过滤bbox过滤功能相似,都是筛选与指定区域相交的数据记录,不同的是蒙版过滤通过mask参数可以传入任意形状的多边形,不再像bbox过滤那样只接受矩形:

data = gpd.read_file('geometry/china_provinces.json',
mask=geometry.Polygon([(100, 20), (110, 30), (120, 20)])) ax = data.plot()
# 绘制bbox框示意
ax = gpd.GeoSeries([geometry.Polygon([(100, 20),
(110, 30),
(120, 20)]).boundary]).plot(ax=ax, color='red')

图16

  可以看到只有跟红色多边形相交的几何对象被读入。

  • 行过滤

  行过滤的功能就比较简单,通过参数rows控制读入原数据的前若干行,可以用于在读取大型数据时先快速查看前几行以了解整个数据的格式:

图17

2.2 矢量文件的写出

  在geopandas中使用to_file()来将GeoDataFrameGeoSeries写出为矢量文件,主要支持shapefileGeoJSON以及GeoPackage,不像geopandas.read_file()可以根据传入的文件名称信息自动推断类型,我们在写出矢量数据时就需要使用driver参数来声明文件类型:

  • ESRI Shapefile

  我们将上文最后一次读入的GeoDataFrame写出为ESRI Shapefile,设置driver参数为ESRI Shapefile,如果你对文件编码有要求,这里可以使用encoding参数来指定,譬如这里我们指定为utf-8

'''在工程根目录下创建output文件夹'''
import os try:
os.mkdir('output')
except FileExistsError:
pass data.to_file('output/output.shp',
driver='ESRI Shapefile',
encoding='utf-8')

  可以看到在output文件夹下,成功导出了完整的shapefile

图18

  而如果导出的文件名不加后缀扩展名,则会生成包含在新目录下的shapefile

data.to_file('output/output_shapefile',
driver='ESRI Shapefile',
encoding='utf-8')

图19

  也可以向指定的文件夹下追加图层:

data.to_file('output/output_shapefile_multi_layer',
driver='ESRI Shapefile',
layer='layer1',
encoding='utf-8') data.to_file('output/output_shapefile_multi_layer',
driver='ESRI Shapefile',
layer='layer2',
encoding='utf-8') data.to_file('output/output_shapefile_multi_layer',
driver='ESRI Shapefile',
layer='layer3',
encoding='utf-8')

图20

  • GeoPackage

  对于gdb文件,由于ESRI的限制,暂时无法在开源的geopandas中导出,但我们可以用QGIS中的GeoPackage作为替代方案(开源世界万岁O(∩_∩)O~~),只需要将driver参数设置为GPKG即可,这里需要注意一个bug:在使用geopandas导出GeoPackage文件时,可能会出现图21所示错误:

图21

  但我观察到即使出现了上述错误,GeoPackage文件也是成功保存到路径下的且整个程序并未被打断,因此可以无视上述错误:

图22

  • GeoJSON

  写出为GeoJSON非常容易,只需要设置driver='GeoJSON'即可:

图23

  以上就是本文的全部内容,如有笔误望指出!

(数据科学学习手札77)基于geopandas的空间数据分析——文件IO的更多相关文章

  1. (数据科学学习手札89)geopandas&geoplot近期重要更新

    本文示例代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 最近一段时间(本文写作于2020-07-1 ...

  2. (数据科学学习手札129)geopandas 0.10版本重要新特性一览

    本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 就在前不久,我们非常熟悉的Python地理 ...

  3. (数据科学学习手札111)geopandas 0.9.0重要新特性一览

    本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 就在几天前,geopandas释放了其最新正式版 ...

  4. (数据科学学习手札63)利用pandas读写HDF5文件

    一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...

  5. (数据科学学习手札146)geopandas中拓扑非法问题的发现、诊断与修复

    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,geopandas作为在Pyt ...

  6. (数据科学学习手札139)geopandas 0.11版本重要新特性一览

    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,就在几天前,geopandas ...

  7. (数据科学学习手札75)基于geopandas的空间数据分析——坐标参考系篇

    本文对应代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一篇文章中我们对geopandas中的数据结 ...

  8. (数据科学学习手札82)基于geopandas的空间数据分析——geoplot篇(上)

    本文示例代码和数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在前面的基于geopandas的空间数据分 ...

  9. (数据科学学习手札84)基于geopandas的空间数据分析——空间计算篇(上)

    本文示例代码.数据及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在本系列之前的文章中我们主要讨论了g ...

随机推荐

  1. VMware Workstation CentOS7 Linux 学习之路(5)--Docker安装与使用

    一.安装与配置 1.安装依赖包 sudo yum install -y yum-utils device-mapper-persistent-data lvm2 2.设置阿里云镜像源 sudo yum ...

  2. 高校表白app使用体验

    在本次软件工程专业交流会中,有幸了解了很多学长学姐研究并且开发的软件,使我受益匪浅.其中最让我记忆犹新的还属一款名为高校表白app的软件.首先这款app的主要功能是为我们提供一个委婉的告白平台,我们可 ...

  3. java 数组2

    一.创建异常 1.空指针异常 2.超出索引范围 二.遍历 for循环 三.求数组中的最大值 package cn.wt.day05.demon02; public class DemonArray03 ...

  4. Java入门 - 语言基础 - 16.数组

    原文地址:http://www.work100.net/training/java-array.html 更多教程:光束云 - 免费课程 数组 序号 文内章节 视频 1 概述 2 声明数组变量 3 创 ...

  5. idea使用PlantUML画类图教程

    嗯,在学设计模式时,画类图画的麻烦,就查了一下,发现idea可以通过插件实现.查了一下,学习,整理笔记和大家交流.  2019.9.11 安装可以百度,网上有好多. PlantUML 官网.如果时间多 ...

  6. 重写ThreadFactory方法和拒绝策略

    最近项目中要用到多线程处理任务,自然就用到了ThreadPoolTaskExecutor这个对象,这个是spring对于Java的concurrent包下的ThreadPoolExecutor类的封装 ...

  7. 第一章001-003课程介绍、计算机网络概述、Internet概述

    计算机网络概述 课程安排: 第一章:概述 第二章:物理层 第三章:数据链路层 第四章:网络层 第五章:运输层 第六章:应用层 第七章:网络安全 第八章:因特网上的音频/视频服务 第九章:无线网络 第十 ...

  8. latex2e

    classs and packages 这一节介绍新的latex文档结构, 以及新的文件类型: classs and packages 类和包是什么? lext 2.09和latex2e的主要差别就在 ...

  9. 自学前端开发,现在手握大厂offer,我的故事还在继续

    简要背景 我是一个非科班出身的程序员,而且是连续跨专业者,用一句话总结就是:16 届本科学完物流,保送研究生转交通,自学前端开发的休学创业者. 17 年休学创业,正式开始学习前端,离开创业公司后,我又 ...

  10. Web自动化测试项目(二)BasePage实现

    一.BasePage介绍 创建一个BasePage类,对Selenium Api进行二次封装 为了快速创建项目并投产,用到的Selenium Api才进行封装,没用到的则不封装 优先封装最重要的几个方 ...