(数据科学学习手札80)用Python编写小工具下载OSM路网数据
本文对应脚本已上传至我的
Github
仓库https://github.com/CNFeffery/DataScienceStudyNotes
1 简介
我们平时在数据可视化或空间数据分析的过程中经常会需要某个地区的道路网络及节点数据,而OpenStreetMap
就是一个很好的数据来源(譬如图1柏林路网):
图1
通常我们可以在 https://www.openstreetmap.org/export 中选择矩形区域内的路网矢量数据进行下载,但这种方式对选择区域的大小有一定限制,想获取较大范围区域的路网数据并下载比较费事;而另一种方式是事先下载已经整合好的大区域的文件,譬如在 http://download.geofabrik.de/ 中提供了各大洲、国家等大范围的数据整合包,可以花费一定时间将其下载下来,再在需要哪些小区域时在本地GIS
软件或编程工具中裁剪下所需的范围路网,但这种方式一是对电脑资源要求较高,譬如中国范围路网信息shapefile文件大小达到了800多兆,二是OSM
的路网信息不定期更新之后,要想及时跟上最新数据,就需要人工持续下载数据。
为了更加灵活自由,且即时地获取最新版本的OSM
路网,我们可以利用Python
,来编写脚本工具方便快捷地检索或下载OSM
可以识别出的各个级别行政区对应的矢量格式数据。
2 基于Python的OSM路网下载
2.1 工作流程
编写这个工具灵感来源于 https://anvaka.github.io/city-roads/?q= 这个网站:
图2
用户通过输入指定城市的名称并检索,等待数据资源加载完成之后就可以在网页中看到渲染好的城市路网,以重庆为例:
图3
通过对该网站进行抓包和源码分析,我弄明白了其工作流程大致如下:
Step1:
根据用户输入的城市名称,利用OSM官方的API进行模糊匹配,获取可能的对象列表:
图4
Step2:
用户点击选择正确的区域,后台js对其所对应的id信息进行变换,再通过网站自带的API获取对应的
.pbf
格式数据,或overpass
的API获取JSON
格式的矢量数据。
图5
Step3:
渲染路网:
图6
了解了上述步骤之后,我们利用requests
、geopandas
等库仅用不到100行代码就可以参考上述过程,提取所需的shapefile
或GeoJSON
文件保存到本地,具体的代码部分本文不做详细说明,我将这部分功能封装到文章开头对应Github
仓库下的OsmDownloader.py
(https://github.com/CNFeffery/DataScienceStudyNotes/blob/master/(数据科学学习手札80)用Python编写小工具下载OSM路网数据/OsmDownloader.py )中,可以自行去下载并使用,下面我们来学习如何在Python
中使用它。
2.2 使用方式
按照上文所述的地址下载对应脚本之后(请提前安装完成requests
、geopandas
、pandas
以及tqdm
这几个三方库),记住其所在路径,接着在其他脚本开头导入模块部分添加:
import sys
sys.path.append(r'所在路径')
from OsmDownloader import OsmDownloader
这样才能成功导入没有在Python
中注册过的独立模块,接下来我们来下载数据,只需要两行代码即可完成对单个行政区路网数据的下载,以成都市为例:
# 单个地区路网下载
downloader = OsmDownloader(area='成都市') # area参数控制检索的行政区,请尽量准确填写
downloader.download_shapefile(path='保存路径') # path参数控制文件保存的路径
程序运行后稍等片刻即可完成下载(具体的耗时取决于你的网络状况),譬如这里我花了不到20秒就完成成都市路网数据的下载:
图7
保存下来的数据线图层与点图层分开保存:
图8
图9
如果你想要下载保存JSON
格式的数据,换成downloader.download_geojson(path)
即可,而如果你想要批量下载多个地区的数据,结合for循环即可,如下例:
# 多个地区路网下载
area_list = ['北京市', '重庆市江北区', 'Tokyo', 'Boston', '台湾省']
for area in area_list:
downloader = OsmDownloader(area=area)
downloader.download_shapefile(path='保存路径')
等待一段时间后,我们area_list
里多个不同级别行政区的路网数据便下载完成:
图10
如果担心中途网络连接原因导致中断,可以结合Python
中的错误捕捉机制来进行相对应的处理,比较简单这里就不再赘述。
以上就是本文全部内容,对脚本获取或使用有疑问的可以留言告诉我。
(数据科学学习手札80)用Python编写小工具下载OSM路网数据的更多相关文章
- (数据科学学习手札90)Python+Kepler.gl轻松制作时间轮播图
本文示例代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 Kepler.gl作为一款强大的开源地理信 ...
- (数据科学学习手札32)Python中re模块的详细介绍
一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...
- (数据科学学习手札109)Python+Dash快速web应用开发——静态部件篇(中)
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 这是我的系列教程Python+Dash快速web ...
- (数据科学学习手札112)Python+Dash快速web应用开发——表单控件篇(上)
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 这是我的系列教程Python+Dash快速web ...
- (数据科学学习手札85)Python+Kepler.gl轻松制作酷炫路径动画
本文示例代码.数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 Kepler.gl相信很多人都听说过,作为 ...
- (数据科学学习手札106)Python+Dash快速web应用开发——回调交互篇(下)
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 这是我的系列教程Python+Dash快速web ...
- (数据科学学习手札116)Python+Dash快速web应用开发——交互表格篇(中)
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 这是我的系列教程Python+Dash快速web ...
- (数据科学学习手札126)Python中JSON结构数据的高效增删改操作
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一期文章中我们一起学习了在Python ...
- (数据科学学习手札06)Python在数据框操作上的总结(初级篇)
数据框(Dataframe)作为一种十分标准的数据结构,是数据分析中最常用的数据结构,在Python和R中各有对数据框的不同定义和操作. Python 本文涉及Python数据框,为了更好的视觉效果, ...
随机推荐
- IP地址0.0.0.0表示什么
参考RFC文档: 0.0.0.0/8 - Addresses in this block refer to source hosts on "this"network. Addre ...
- 干了这碗蛋炒饭 继续APP性能提升
[前言] 什么是做功能,功能就是客户要一碗蛋炒饭,然后做了给他. 我想谁都明白,一家餐厅能活下去,是因为能把食材料理好,客户喜欢. 更准确的说,一家餐厅能活得下去,要考虑用户需求.食材,然后就是料理水 ...
- flutter 入门(Mac)
背景 近一年时间都在用 React Native 开发公司的 APP,水平基本上可以说是登堂入室了.前一段时间兴起一阵 Flutter 热,后端的同事都有推荐,今年 Google 大会又推出 flut ...
- 2020年JAVA大厂笔经面经
个人简介 Java后台开发方向. 非计算机专业硕士,专业涉及到一些开发. 实验室项目主要是Java Web系统,挖掘小亮点. 无实习经验. 闲话唠嗑 回顾这几个月,宛若梦一场. 一开始心态不好 ...
- python中使用paramiko模块并实现远程连接服务器执行上传下载
paramiko模块 paramiko是用python语言写的一个模块,遵循SSH2协议,支持以加密和认证的方式,进行远程服务器的连接. 因此,如果需要使用SSH从一个平台连接到另外一个平台,进行一系 ...
- 【Network telemetry】谈谈网络遥感技术,从主动探测与被动探测再到Netflow与INT
[前言] [本篇为原创]网络遥感,Network telemetry,为什么叫“telemetry”呢?我个人的理解是将网络中的数据进行一种“采集”,也就是实际上是一种网络数据的采集手段.由于工作需要 ...
- linux入门系列16--文件共享之Samba和NFS
前一篇文章"linux入门系列15--文件传输之vsftp服务"讲解了文件传输,本篇继续讲解文件共享相关知识. 文件共享在生活和工作中非常常见,比如同一团队中不同成员需要共同维护同 ...
- 使用 GitHub 开源项目申请 IntelliJ License
一.写在前面 这次要介绍的是通过使用 GitHub 上的开源项目来申请 IntelliJ Pycharm 的正版 License,只需在 GitHub 上准备一个维护超过3个月的开源项目,就能免费使用 ...
- webpack配置中环境变量-process.env. NODE_ENV
背景 webpack有一特性就是可以让使用者灵活的在不同环境(开发环境,生产环境等)进行相应的特性的策略打包,比如: 是否使用反向代理使用接口,针对不同的静态资源(如图片等)是直接拷贝还是进行打包编译 ...
- HTTP协议详解(深入理解)
版权声明:本文为CSDN博主「有抱负的小狮子」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明.原文链接:https://blog.csdn.net/weixin_ ...