本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

　　大家好我是费老师，前不久我在一篇文章中给大家分享过geopandas在其0.11版本中为我们带来的一些重要新特性，其中提到过新的矢量读写后端，使得我们在read_file()以及to_file()中添加参数engine='pyogrio'即可获得500%的性能提升。

　　而新引擎带来的不仅是性能上的大幅提升，还带来了诸多实用功能以方便我们读写常见矢量文件，今天我就来给大家详细介绍这些新功能。

2 详解geopandas中的pyogrio读写引擎

　　geopandas0.11版本之后新增的pyogrio引擎，基于geopandas团队开发的同名Python库，其基于OGR，而OGR则是著名的开源栅格空间数据转换框架GDAL的重要分支库，专注于矢量数据的高性能转换。

2.1 基于pyogrio的矢量文件读取

　　对于0.11及以后版本的geopandas，向read_file()中传入engine='pyogrio'后，即可切换至底层基于pyogrio.read_dataframe()的读取引擎，获取大幅度性能提升的同时也拥有了众多的新功能参数，其中比较实用的有：

2.1.1 利用columns参数指定需要读入的字段

　　开启pyogrio引擎后，我们可以通过设置参数columns来读入指定的若干字段，当你的矢量文件有很多无关紧要的字段时，可以利用此特性来整洁数据以及减少读入数据的内存消耗：

2.1.2 利用read_geometry参数设置是否忽略矢量列

　　如果你不需要矢量文件中的矢量信息，只需要将其当作普通表格数据进行读入，开启pyogrio引擎后，设置read_geometry=False即可，所形成对象的类型也会变为普通的DataFrame：

2.1.3 利用force_2d参数强制忽略z轴信息

　　有些情况下，矢量数据中的坐标信息带有z轴高度信息，如果分析过程中用不上该维度信息，可以在开启pyogrio引擎后设置force_2d=True强制转换为2D矢量，非常方便：

2.1.4 利用skip_features与max_features参数控制读入数据规模

　　在开启pyogrio引擎后，通过设置参数skip_features可以控制从数据第0行开始需要跳过的要素记录数量：

　　而通过设置参数max_features则可以控制最多读取多少行要素记录，当我们的矢量文件记录行很多，而我们又只想简单查看几行看看数据长什么样时，这个参数就很实用了：

2.1.5 利用参数where对矢量文件进行条件过滤

　　这个新特性非常实用，我们可以像写SQL查询语句那样传入我们的过滤条件，从而帮助我们在读取数据时就实现比较丰富自由的条件过滤效果，值得注意的是，针对中文等由unicode字符构成的字段名，需要将其包裹在""中进行定义，参考下图中我的做法：

2.1.6 利用sql参数在原数据上直接进行sql查询

　　前面我们介绍了多种用于过滤原数据的实用参数，而在在开启pyogrio引擎后还有个非常实用的参数sql，可以帮助我们直接书写SQL语句对原数据进行提取（注意，其执行顺序先于上述其他过滤类参数）：

　　但要注意的是，目前pyogrio引擎的sql参数，在读取诸如含有中文等unicode字符信息的shapefile文件时，不能正常的解析内容，而针对GeoJSON、gpkg等其他格式矢量文件时则一切正常：

GeoJSON文件正常

gpkg文件正常

shapefile文件乱码，亲测即使指定encoding也无效

　　所以现阶段建议读取shapefile文件时，可以使用columns+where的组合方式代替sql以实现同样的效果。

2.2 基于pyogrio的矢量文件写出

　　相较于文件的读取，新引擎中涉及文件写出的功能参数就寡淡很多，只发现一个比较特别的promote_to_multi参数，用于强制将单部件要素转换为多部件要素：

2.3 pyogrio引擎支持的所有矢量文件类型

　　你可以通过pyogrio.list_drivers()查看新引擎所支持的全部矢量文件格式，基本上只有你想不到没有它覆盖不到：

　　更多相关内容，可以前往https://pyogrio.readthedocs.io/en/latest/api.html?#geopandas-integration阅读了解更多。

　　以上就是本文的全部内容，欢迎在评论区与我进行讨论~

（数据科学学习手札140）详解geopandas中基于pyogrio的矢量读写引擎的更多相关文章

（数据科学学习手札96）在geopandas中叠加在线地图
本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介国庆期间,抽空给大家分享在geopandas中叠 ...
（数据科学学习手札44）在Keras中训练多层感知机
一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度 ...
（数据科学学习手札143）为geopandas添加gdb文件写出功能
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介大家好我是费老师,很多读者朋友跟随着我先前写作的 ...
（数据科学学习手札93）利用geopandas与PostGIS进行交互
本文完整代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 PostGIS作为postgresql针对 ...
（数据科学学习手札130）利用geopandas快捷绘制在线地图
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在上一篇文章中,我为大家介绍了不久前发布的 ...
（数据科学学习手札133）利用geopandas绘制拓扑着色地图
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介我们在绘制某些地图时,为了凸显出每个独立的 ...
（数据科学学习手札125）在Python中操纵json数据的最佳方式
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在日常使用Python的过程中,我们经常会 ...
（数据科学学习手札127）在Python中使用icecream实现高效debug
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介尽管有那么多花里胡哨的debug工具和方式 ...
（数据科学学习手札71）在Python中制作个性化词云图
本文对应脚本及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 一.简介词云图是文本挖掘中用来表征词频的数据可视化 ...

随机推荐

GO 前后端分离开源后台管理系统 Gfast v2.0.4 版发布
更新内容:1.适配插件商城,开发环境从后台直接安装插件功能:2.代码生成细节修复及功能完善(支持生成上传文件.图片及富文本编辑器功能):3.增加swagger接口文档生成:4.更新goframe版本至 ...
借助ADB冻结与卸载Android系统应用（免ROOT）
背景: 我妈的手机饱受系统应用广告推送之苦,每天都能在通知栏里收到好几条广告.为了给她个清净,本篇博文应运而生. 目标: 卸载安卓系统应用所用工具: 硬件:我妈的手机(魅蓝5) PC端:Minima ...
Response.Write中文乱码问题
接手别人的一个ASP项目,功能是页面按钮下载Excel导出数据. 每次导出某一天的数据会出现excel中文乱码,其他天又没问题,因为数据量比较大,所以没有逐条去检查. 找了一些资料 https://w ...
关于transform属性的一些理解
3D transform transform进行动画演示时,是以元素的中心为基准点的,可以使用transform-origin改变元素转变的基准点. 所有的transform动作改变都会引起X.Y轴的 ...
面试简历书写、Flask框架介绍与快速使用、Flask演示登录页面、用户信息页面案例
今日内容概要面试简历编写 Flask框架介绍与安装内容详细 1.面试简历编写 # 千万不要几个小时把简历凑出来几天到一周 # 有没有面试机会,取决于简历写得怎么样简历写好是第一步 # 投简历的 ...
mysql事务管理和mysql用户管理
1.什么是事务? 事务是一条或者是一组语句组成一个单元,这个单元要么全部执行,要么全不执行. 2.事务特性:ACID: A:atomicity原子性:整个事务中的所有操作要么全部成功执行,要么全部失败 ...
2. springboot加载配置参数顺序
加载顺序依次是:1.jar的classes里面的application.properties 2.当前路径下config里面的application.properties 3.jar的classes里 ...
学习Java的第十七天——大数字运算
学习内容:大数字运算代码实现: package 数字处理类; import java.math.BigInteger; public class BigIntegerDemo { public st ...
python之模块(hashlib、logging)
hashlib模块加密的概念加密,是以某种特殊的算法改变原有的数据,当其他人获得数据时,也无法了解数据的内容.简单的来说,就是将明文(人看得懂)数据通过一些手段变成密文数据(人看不懂),密文数据的 ...
python之模块(os、sys、json、subprocess)
目录 os模块 sys模块 json模块 subprocess模块 os模块 os模块主要是与操作系统打交道. 导入os模块 import os 创建单层文件夹,路径必须要存在 os.mkdir(路径 ...

（数据科学学习手札140）详解geopandas中基于pyogrio的矢量读写引擎