记一次 Sedona（GeoSpark）空间计算优化

项目需求需要空间计算能力，开始选型Sedona（GeoSpark）来完成，

需求需要每一条数据在满足某条件的情况下，去查找某张表进行空间匹配，找到离这个点（point）最近的一条道路（lineString）

第一个方案: 使用sedona来使用临近道路的判断

由于sedona本质还是使用spark的能力，所以遵循spark的开发规则，不能在`rdd.map` 里面干活，sedona也不支持批量查，只能一条一条匹配。伪代码如下

	val spatial_sql =

	"""

			| select

			|   ST_GeomFromWKT(geom) geom, name, adcode

			| from ods.ods_third_party_road_data

			|""".stripMargin

	val third_party_road_df = spark.sql(spatial_sql).toDF()

	aoi_day_s_df.rdd.collect().par.map(row => {

		val tmp_location = row.getAs[String]("poi_location")

		val near_street = spatialQueryStreet(third_party_road_df, city_code, tmp_location)

		println(near_street)

		...

	)

	def spatialQueryStreet(third_party_road_df:DataFrame, city_code:String, location: String): String = {

		val frame = third_party_road_df.where("adcode = '%s'".format(city_code)).toDF()

		val tp_road_spatial_rdd = Adapter.toSpatialRdd(frame, "geom")

		tp_road_spatial_rdd.buildIndex(IndexType.RTREE, false)

		val geometryFactory = new GeometryFactory()

		val x = location.substring(location.indexOf("(") + 1, location.indexOf(" "))

		val y = location.substring(location.indexOf(" ") + 1,  location.indexOf(")"))

		val pointObject = geometryFactory.createPoint(new Coordinate(x.toDouble, y.toDouble))

		val usingIndex = true

		val result = KNNQuery.SpatialKnnQuery(tp_road_spatial_rdd, pointObject, 1, usingIndex)

		if (result.isEmpty) {

		  return ""

		} else {

		  val dst = result.get(0)

		  //System.out.println("==== dst.getUserData: " + dst.getUserData.toString)

		  val strings = dst.getUserData.toString.split("\t")

		  val near_street = strings(0)

		  //System.out.println("==== near_street: " + near_street)

		  near_street

		}

结果效率不高，因为每条数据都要匹配，sedona又不能在`rdd.map`中使用，所以必须先`collect().map`,这就不能利用到spark多节点并行的特性； 2. 每条数据都基于`third_party_road_df`创建了空间索引来查，效率更低了（如果只有一条数据还勉强可以接受）

方案2：改sedona为JTS来处理，jts直接创建rtree，可以在`rdd.map`中处理，而且创建速度也更快一些，效率更高了

伪代码如下

  poi_build_aoi_aoi_day_s_df.rdd.map(row => {

		val tmp_location = row.getAs[String]("poi_location")

		val rtree = createRtree(model_list)

		near_street = spatialQueryStreet(rtree, tmp_location)

		println(near_street)

		...

  )

  def createRtree(third_party_road_list: Array[ThirdPartyModel]): STRtree = {

    val rtree = new STRtree()

    for (model <- third_party_road_list) {

      val geom = model.geometry

      geom.setUserData(model.name)

      rtree.insert(geom.getEnvelopeInternal, model.geometry)

    }

    rtree.build()

    rtree

  }

  def spatialQueryStreet(rtree: STRtree, location: String): String = {

    if (rtree == null) {

      ""

    }

    val geometryFactory = new GeometryFactory()

    val x = location.substring(location.indexOf("(") + 1, location.indexOf(" "))

    val y = location.substring(location.indexOf(" ") + 1,  location.indexOf(")"))

    val pointObject = geometryFactory.createPoint(new Coordinate(x.toDouble, y.toDouble))

    val result = rtree.nearestNeighbour(pointObject.getEnvelopeInternal, pointObject, new GeometryItemDistance())

    val name = result.asInstanceOf[Geometry].getUserData.asInstanceOf[String]

    println(s"nearestNeighbour name: $name")

    name

  }

通过这次修改，由原来跑3个小时（甚至更多）的任务在15分钟内就跑完了

PS：经尝试`rtree` 不能通过广播变量发送出去，会报序列化异常

其实还可以再优化一下，上面每条数据还是创建了一次`rtree`, 可以改为`mapPartition`，然后只建一次`rtree`, 数据量大时效果更佳

aoi_day_s_df.rdd.mapPartitions(iterator => {

	// rtree 放到iterator.map 外面创建，搞一次就ok了，更快（不过我没有试验，应该是百分百可行的）

	val rtree = createRtree(model_list)

	val seq = iterator.map(row => {

		val tmp_location = row.getAs[String]("poi_location")

		near_street = spatialQueryStreet(rtree, tmp_location)

		println(near_street)

		...

	)

	seq

  )

记一次 Sedona（GeoSpark）空间计算优化的更多相关文章

从程序到系统：建立一个更智能的世界——记Joseph Sifakis“21世纪的计算”大会主题演讲
Sifakis"21世纪的计算"大会主题演讲" title="从程序到系统:建立一个更智能的世界--记Joseph Sifakis"21世纪的计算&q ...
（数据科学学习手札88）基于geopandas的空间数据分析——空间计算篇（下）
本文示例代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在基于geopandas的空间数据分析系列 ...
Linux启动时间优化-内核和用户空间启动优化实践
关键词:initcall.bootgraph.py.bootchartd.pybootchart等. 启动时间的优化,分为两大部分,分别是内核部分和用户空间两大部分. 从内核timestamp 0.0 ...
(转) Delete/Truncate删除,释放表空间、降低高水位线、resize释放磁盘空间相关优化
硬盘空间不足,打算删除数据库中的多余数据,但删除数据后,硬盘硬盘空间不能释放.[delete后用:alter table table_name move truncate后用:alter tab ...
2019牛客多校第二场F Partition problem 暴力+复杂度计算+优化
Partition problem 暴力+复杂度计算+优化题意 2n个人分成两组.给出一个矩阵,如果ab两个在同一个阵营,那么就可以得到值\(v_{ab}\)求如何分可以取得最大值 (n<14 ...
递归、尾递归和使用Stream延迟计算优化尾递归
我们在学数据结构的时候必然会接触栈(Stack),而栈有一个重要的应用是在程序设计语言中实现递归.递归用途十分广泛,比如我们常见的阶乘,如下代码: 1234 public static int (in ...
（数据科学学习手札84）基于geopandas的空间数据分析——空间计算篇（上）
本文示例代码.数据及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介在本系列之前的文章中我们主要讨论了g ...
记一次 spinor flash 读速度优化
背景某个项目使用的介质是 spinor, 其 bootloader 需要从 flash 中加载 os. 启动速度是一个关键指标,需要深入优化.其他部分的优化暂且略过,此篇主要记录对 nor 读速度的 ...
【算法随记】Canny边缘检测算法实现和优化分析。
以前的博文大部分都写的非常详细,有很多分析过程,不过写起来确实很累人,一般一篇好的文章要整理个三四天,但是,时间越来越紧张,后续的一些算法可能就以随记的方式,把实现过程的一些比较容易出错和有价值的细节 ...

随机推荐

实现领域驱动设计 - 使用ABP框架 - 创建实体
用例演示 - 创建实体本节将演示一些示例用例并讨论可选场景. 创建实体从实体/聚合根类创建对象是实体生命周期的第一步.聚合/聚合根规则和最佳实践部分建议为Entity类创建一个主构造函数,以保证创 ...
3. Caller 服务调用 - dapr
前言上一篇我们讲了使用HttpClient的方式调用,那么如果我们现在需要更换为通过dapr实现服务调用,我们需要做哪些事情呢? Caller.Dapr 入门如果我们的项目原本使用的是Caller ...
关于NAND FLASH解扣的认识
NAND FLASH是现在非常重要的存储介质,根据出厂时厂家检测结果可分为原片(正片).白片和黑片. 所谓原片就是NAND FLASH生产厂商挑选出来的最好的晶圆,切割下来经过了各项测试之后封装成成品 ...
016（剪花布条）（KMP）
题目:http://ybt.ssoier.cn:8088/problem_show.php?pid=1465 题目思路:KMP模板题,该说的都在代码里 #include<bits/stdc++. ...
WPF双滑块控件以及强制捕获鼠标事件焦点
效果概述最近有个小需求要用双滑块表示一个取值范围,于是就简单做了个用户控件,在此记录下. 使用矩形Rectangle表示范围,椭圆Ellipse表示滑块,使用Canvas控制滑块的左右移动. 椭圆 ...
noi-2.2基本算法之递归和自调用函数:放苹果
先看一下题目: http://noi.openjudge.cn/ch0202/666/http://noi.openjudge.cn/ch0202/666/ 把M个同样的苹果放在N个同样的盘子里,允许 ...
使用Three.js实现炫酷的赛博朋克风格3D数字地球大屏 🌐
声明:本文涉及图文和模型素材仅用于个人学习.研究和欣赏,请勿二次修改.非法传播.转载.出版.商用.及进行其他获利行为. 背景近期工作有涉及到数字大屏的需求,于是利用业余时间,结合 Three.js ...
操作表查询&操作表创建&操作表删除&操作表修改
2.操作表 C(create):创建语法: create table 表明( 列名1 数据类型1, 列名2 数据烈性2, .... 列名n 数据类型n ); create table Student ...
Nginx Lua拓展模块操作Redis、Mysql
# Nginx的拓展模块 # ngx_lua模块 # 淘宝开发的ngx_lua模块通过lua解释器集成近Nginx,可以采用lua脚本实现业务逻辑,由于lua的紧凑.快速以及内建协程,所以在保证宝兵法 ...
Javaweb-文件上传和邮件发送
1.文件上传新建空项目准备工作在maven仓库里下载commons io 和 commons fileupload两个jar包实用类介绍文件上传注意事项为保证服务器安全,上传文件应该放在外 ...

记一次 Sedona（GeoSpark） 空间计算优化

项目需求需要空间计算能力，开始选型Sedona（GeoSpark）来完成，

需求需要每一条数据在满足某条件的情况下，去查找某张表进行空间匹配，找到离这个点（point）最近的一条道路（lineString）

第一个方案: 使用sedona来使用临近道路的判断

由于sedona本质还是使用spark的能力，所以遵循spark的开发规则，不能在rdd.map 里面干活，sedona也不支持批量查，只能一条一条匹配。 伪代码如下

方案2： 改sedona为JTS来处理，jts直接创建rtree，可以在rdd.map中处理，而且创建速度也更快一些，效率更高了

伪代码如下

通过这次修改，由原来跑3个小时（甚至更多）的任务在15分钟内就跑完了

PS： 经尝试rtree 不能通过广播变量发送出去，会报序列化异常

其实还可以再优化一下，上面每条数据还是创建了一次rtree, 可以改为mapPartition，然后只建一次rtree, 数据量大时效果更佳

记一次 Sedona（GeoSpark） 空间计算优化的更多相关文章

随机推荐

热门专题

记一次 Sedona（GeoSpark）空间计算优化

由于sedona本质还是使用spark的能力，所以遵循spark的开发规则，不能在`rdd.map` 里面干活，sedona也不支持批量查，只能一条一条匹配。伪代码如下

方案2：改sedona为JTS来处理，jts直接创建rtree，可以在`rdd.map`中处理，而且创建速度也更快一些，效率更高了

PS：经尝试`rtree` 不能通过广播变量发送出去，会报序列化异常

其实还可以再优化一下，上面每条数据还是创建了一次`rtree`, 可以改为`mapPartition`，然后只建一次`rtree`, 数据量大时效果更佳

记一次 Sedona（GeoSpark）空间计算优化的更多相关文章