(数据科学学习手札140)详解geopandas中基于pyogrio的矢量读写引擎
本文示例代码已上传至我的
Github
仓库https://github.com/CNFeffery/DataScienceStudyNotes
1 简介
大家好我是费老师,前不久我在一篇文章中给大家分享过geopandas
在其0.11版本中为我们带来的一些重要新特性,其中提到过新的矢量读写后端,使得我们在read_file()
以及to_file()
中添加参数engine='pyogrio'
即可获得500%的性能提升。
而新引擎带来的不仅是性能上的大幅提升,还带来了诸多实用功能以方便我们读写常见矢量文件,今天我就来给大家详细介绍这些新功能。
2 详解geopandas中的pyogrio读写引擎
geopandas
0.11版本之后新增的pyogrio
引擎,基于geopandas
团队开发的同名Python
库,其基于OGR
,而OGR
则是著名的开源栅格空间数据转换框架GDAL
的重要分支库,专注于矢量数据的高性能转换。
2.1 基于pyogrio的矢量文件读取
对于0.11及以后版本的geopandas
,向read_file()
中传入engine='pyogrio'
后,即可切换至底层基于pyogrio.read_dataframe()
的读取引擎,获取大幅度性能提升的同时也拥有了众多的新功能参数,其中比较实用的有:
2.1.1 利用columns参数指定需要读入的字段
开启pyogrio
引擎后,我们可以通过设置参数columns
来读入指定的若干字段,当你的矢量文件有很多无关紧要的字段时,可以利用此特性来整洁数据以及减少读入数据的内存消耗:
2.1.2 利用read_geometry参数设置是否忽略矢量列
如果你不需要矢量文件中的矢量信息,只需要将其当作普通表格数据进行读入,开启pyogrio
引擎后,设置read_geometry=False
即可,所形成对象的类型也会变为普通的DataFrame
:
2.1.3 利用force_2d参数强制忽略z轴信息
有些情况下,矢量数据中的坐标信息带有z轴高度信息,如果分析过程中用不上该维度信息,可以在开启pyogrio
引擎后设置force_2d=True
强制转换为2D矢量,非常方便:
2.1.4 利用skip_features与max_features参数控制读入数据规模
在开启pyogrio
引擎后,通过设置参数skip_features
可以控制从数据第0行开始需要跳过的要素记录数量:
而通过设置参数max_features
则可以控制最多读取多少行要素记录,当我们的矢量文件记录行很多,而我们又只想简单查看几行看看数据长什么样时,这个参数就很实用了:
2.1.5 利用参数where对矢量文件进行条件过滤
这个新特性非常实用,我们可以像写SQL
查询语句那样传入我们的过滤条件,从而帮助我们在读取数据时就实现比较丰富自由的条件过滤效果,值得注意的是,针对中文等由unicode字符构成的字段名,需要将其包裹在""
中进行定义,参考下图中我的做法:
2.1.6 利用sql参数在原数据上直接进行sql查询
前面我们介绍了多种用于过滤原数据的实用参数,而在在开启pyogrio
引擎后还有个非常实用的参数sql
,可以帮助我们直接书写SQL
语句对原数据进行提取(注意,其执行顺序先于上述其他过滤类参数):
但要注意的是,目前pyogrio
引擎的sql
参数,在读取诸如含有中文等unicode字符信息的shapefile
文件时,不能正常的解析内容,而针对GeoJSON
、gpkg
等其他格式矢量文件时则一切正常:
GeoJSON
文件正常
gpkg
文件正常
shapefile
文件乱码,亲测即使指定encoding
也无效
所以现阶段建议读取shapefile
文件时,可以使用columns
+where
的组合方式代替sql
以实现同样的效果。
2.2 基于pyogrio的矢量文件写出
相较于文件的读取,新引擎中涉及文件写出的功能参数就寡淡很多,只发现一个比较特别的promote_to_multi
参数,用于强制将单部件要素转换为多部件要素:
2.3 pyogrio引擎支持的所有矢量文件类型
你可以通过pyogrio.list_drivers()
查看新引擎所支持的全部矢量文件格式,基本上只有你想不到没有它覆盖不到:
更多相关内容,可以前往https://pyogrio.readthedocs.io/en/latest/api.html?#geopandas-integration
阅读了解更多。
以上就是本文的全部内容,欢迎在评论区与我进行讨论~
(数据科学学习手札140)详解geopandas中基于pyogrio的矢量读写引擎的更多相关文章
- (数据科学学习手札96)在geopandas中叠加在线地图
本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 国庆期间,抽空给大家分享在geopandas中叠 ...
- (数据科学学习手札44)在Keras中训练多层感知机
一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度 ...
- (数据科学学习手札143)为geopandas添加gdb文件写出功能
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,很多读者朋友跟随着我先前写作的 ...
- (数据科学学习手札93)利用geopandas与PostGIS进行交互
本文完整代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 PostGIS作为postgresql针对 ...
- (数据科学学习手札130)利用geopandas快捷绘制在线地图
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一篇文章中,我为大家介绍了不久前发布的 ...
- (数据科学学习手札133)利用geopandas绘制拓扑着色地图
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 我们在绘制某些地图时,为了凸显出每个独立的 ...
- (数据科学学习手札125)在Python中操纵json数据的最佳方式
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在日常使用Python的过程中,我们经常会 ...
- (数据科学学习手札127)在Python中使用icecream实现高效debug
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 尽管有那么多花里胡哨的debug工具和方式 ...
- (数据科学学习手札71)在Python中制作个性化词云图
本文对应脚本及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 词云图是文本挖掘中用来表征词频的数据可视化 ...
随机推荐
- python学习-Day9
目录 记忆不清点回顾 今日概要 今日内容 大作业讲解 字符编码实际应用 编码与解码 如何解决乱码的问题 文件操作简介 什么是文件 代码操作文件 代码操作文件的流程 基本语法结构 使用关键字打开文件 w ...
- junethack使用指南
本文面向有志于参加Nethack六月衍生大赛,且具有一定英文水平的玩家. 首先,在Junethack服务器页面挑一个在线服务器的网站,个人推荐 hardfought.org,因为访问速度较快. 然后, ...
- 如何查看Linux进程详情?(ps命令)
点击关注上方"开源Linux", 后台回复"读书",有我为您特别筛选书籍资料~ 1. ps是什么? 要对进程进行监测和控制,首先必须要了解当前进程的情况,也就是 ...
- HamsterBear Linux Low Res ADC按键驱动的适配 + LVGL button移植
HamsterBear lradc按键驱动的适配 平台 - F1C200s Linux版本 - 5.17.2 ADC按键 - 4 KEY tablet 驱动程序位于主线内核: drivers/inpu ...
- Jackson通用工具类
compile group: 'com.fasterxml.jackson.core', name: 'jackson-core', version: '2.11.1' compile group: ...
- MySQL中的全表扫描和索引树扫描
引言 在学习mysql时,我们经常会使用explain来查看sql查询的索引等优化手段的使用情况.在使用explain时,我们可以观察到,explain的输出有一个很关键的列,它就是type属性,ty ...
- Vue中mixins、extends、extend和components的作用和区别
关于mixins:官方文档: https://cn.vuejs.org/v2/guide/mixins.html 一.components Vue.component是用来注册或获取全局组件的方法,其 ...
- 手把手带你自定义 Gradle 插件 —— Gradle 系列(2)
请点赞加关注,你的支持对我非常重要,满足下我的虚荣心. Hi,我是小彭.本文已收录到 GitHub · Android-NoteBook 中.这里有 Android 进阶成长知识体系,有志同道合的朋友 ...
- arts-week14
Algorithm 923. 3Sum With Multiplicity - LeetCode Review Building a network attached storage device w ...
- 用Repo管理自己的本地仓库
AOSP使用Repo工具管理项目源码.而Repo工具则依赖一个名叫manifest的git仓库来记录Android源码中都包含哪些子仓库. 进入Android源码根目录下的.repo目录,可以看到ma ...