1.S2

Google S2 被用在Google Map、MongoDB、Foursquare上,用来解决多维空间点索引的问题的。S2主要是把三维空间数据降维为一维UINT64表示的数据。球面上的点S(lat,lng) -> f(x,y,z) -> g(face,u,v) -> h(face,s,t)->cellid(uint64)。球面经纬度坐标转换成球面xyz坐标,再转换成外切正方体投影面上的坐标,再变换成修正后的坐标h(face,s,t),最后通过希尔伯特曲线变换为64bit的数值。

S2共30级,范围:

2.geohash

Geohash 是一种地理编码,它是一种分级的数据结构,分为12级,把空间划分为网格。Geohash属于二维空间填充曲线中的Z阶曲线的实际应用。

表示范围如下:

3.Geomesa Z3

Z3是geomesa提供的基于三维Z阶填充曲线的索引编码,对经纬度+时间进行编码。所以空间处理上与geohash具有形同特点。

4.S2对比geohash

目前大数据领域处理时空数据的方式是,通过geohash/S2对用户空间或轨迹数据降维为一维字符串,存储到DB(例如hbase)系统里面。查询时,根据给出的范围(用BBOX,DISTANCE表示)等,在geohash/S2上映射出满足对应精度及范围的一组一维range(每组range表示满足条件的cell)。通过这些一维数据的前缀邻近性原则在DB的key上搜索满足条件的解码后二次过滤。

4.1 geohash存在的问题

  • geohash邻近点查询是先查找点所在的单元,然后根据所在的单元查询相同level相邻的8个单元,这就意味着需要在我们的DB(Hbase)中查询9个cell范围内的数据,来过滤出来进步二次查询。网格大小选择不好,会引入较大查询。

例如:查询离红星最近点,如果Geohash 字符串为6的话,就是蓝色的大格子。紫色的圆点是搜索出来的目标点。如果用 Geohash 算法查询的话,距离比较近的可能是 wtw37p,wtw37r,wtw37w,wtw37m。但是其实距离最近的点就在 wtw37q。如果选择这么大的网格,就需要再查找周围的8个格子。

如果选择 Geohash 字符串为7的话,那变成黄色的小格子。这样距离红星星最近的点就只有一个了

  • geohash是按照1-12级把空间划分成cell,不同级别的cell范围从5000KM到3.7cm。不同级别间跳变很大。比如选择字符串长度为4,它对应的 cell 宽度是39.1km,需求可能是50km,那么选择字符串长度为3,对应的 cell 宽度就变成了156km,瞬间又大了3倍了。实际中选择合适的level比较困难。

  • geohash范围覆盖时,同样存在level选择上问题,可能用较大的cell覆盖查询范围。

  • Z曲线突变性,会导致某些编码相近但是实际距离很远的情况。

4.2.S2优势

  • S2 有30级,表示范围从0.7cm² 到 85,000,000km²,中间变化平缓。

  • S2主要优势是他的范围覆盖算法。给定一个查询范围以及期望返回的最多网格数,S2就可以返回覆盖查询区域不同等级level的cell,每个cell对应在DB(HBASE)中查询的范围。S2的返回很精确,会减少从DB的读取数据量。

  • 功能上:S2提供了较丰富的查询函数。很容易实现distance,多边形范围查询等,以及各种计算面积,距离等处理。参考这里S2 doc

4.3.实际对比例子

采用矩形覆盖巴黎,level 5 9个cell不能覆盖巴黎左边区域,可以增加3个cell,总计12个cell:

大部分算法,采用level 4,9个cell覆盖巴黎,如下:

采用S2算法,9个cell覆盖巴黎与geohash对比如下:

5.测试

在TSDB上实现S2索引存储到Hbase。hbase rowkey格式类似:shard(2B)+days(2B)+z3/S2(8B)+point(4B+4B)+time(8B)+objid

分别对比了S2和Z3,在两个数据集上的表现

  • 2400W geo_life
数据说明:182个人三年的GPS活动轨迹。
查询:BBOX[100.21831, 30.0, 127.21831,80.136253] time:[2007-08-04 11:30:32, 2007-08-13 16:32:52]
真实命中11条数据。
数据Z3编码耗时 Z3 BBOX 查询 数据S2编码耗时 S2 BBOX 查询
518ms Z3索引命中hbase:15309条数据,查询耗时1461ms 1318ms S2索引命中hbase:15310条,查询耗时877ms
  • 100W轨迹数据
数据说明:从[-30,-20]移动到[-20,-10],每秒经纬度移动0.00001,每秒位置记录;特点数据密度大。
查询:BBOX[-25.50, -18.60, -20.00,-15.40] time:[2018-07-14 01:58:15,2018-07-19 20:51:35]
真实命中:10001条数据
100W数据Z3编码耗时 Z3 BBOX 查询 100W数据S2编码耗时 S2 BBOX 查询
1185ms 查询耗时2975ms (Z3索引命中hbase:211400条数据) 518ms 查询耗时375ms (S2索引命中hbase:60969条)

参考

1. geohash在线验证

2. 高效的多维空间点索引算法 — Geohash 和 Google S2

空间数据库系列二:空间索引S2与Z3分析对比的更多相关文章

  1. keystone系列二:keystone源码分析

    六 keystone架构 6.1 Keystone API Keystone API与Openstack其他服务的API类似,也是基于ReSTFul HTTP实现的. Keystone API划分为A ...

  2. SQL Server 2008空间数据应用系列二:空间索引(Spatial Index)基础

    原文:SQL Server 2008空间数据应用系列二:空间索引(Spatial Index)基础 在前一篇博文中我们学习到了一些关于地理信息的基础知识,也学习了空间参照系统,既地球椭球体.基准.本初 ...

  3. 爬虫系列(二) Chrome抓包分析

    在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境 浏览器:Chrome 浏览器 浏览器版本:67.0.33 ...

  4. SonarQube系列二、分析dotnet core/C#代码

    [前言] 本系列主要讲述sonarqube的安装部署以及如何集成jenkins自动化分析.netcore项目.目录如下: SonarQube系列一.Linux安装与部署 SonarQube系列二.分析 ...

  5. Web 前端开发人员和设计师必读精华文章【系列二十六】

    <Web 前端开发精华文章推荐>2014年第5期(总第26期)和大家见面了.梦想天空博客关注 前端开发 技术,分享各类能够提升网站用户体验的优秀 jQuery 插件,展示前沿的 HTML5 ...

  6. 【圣诞特献】Web 前端开发精华文章推荐【系列二十一】

    <Web 前端开发精华文章推荐>2013年第九期(总第二十一期)和大家见面了.梦想天空博客关注 前端开发 技术,分享各种增强网站用户体验的 jQuery 插件,展示前沿的 HTML5 和  ...

  7. [知识库分享系列] 二、.NET(ASP.NET)

    最近时间又有了新的想法,当我用新的眼光在整理一些很老的知识库时,发现很多东西都已经过时,或者是很基础很零碎的知识点.如果分享出去大家不看倒好,更担心的是会误人子弟,但为了保证此系列的完整,还是选择分享 ...

  8. WPF入门教程系列(二) 深入剖析WPF Binding的使用方法

    WPF入门教程系列(二) 深入剖析WPF Binding的使用方法 同一个对象(特指System.Windows.DependencyObject的子类)的同一种属性(特指DependencyProp ...

  9. 【JAVA编码】 JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换

    http://blog.csdn.net/qinysong/article/details/1179489 这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记 ...

随机推荐

  1. MyBatis事务管理机制

    MyBatis作为Java语言的数据库框架,对数据库的事务管理是其非常重要的一个方面.   本文将讲述MyBatis的事务管理的实现机制,首先介绍MyBatis的事务Transaction的接口设计以 ...

  2. 【Python】关于Python里面小数点精度控制的问题

    基础 浮点数是用机器上浮点数的本机双精度(64 bit)表示的.提供大约17位的精度和范围从-308到308的指数.和C语言里面的double类型相同.Python不支持32bit的单精度浮点数.如果 ...

  3. Python 基本数据结构

    Python基本数据结构 数据结构:通俗点儿说,就是存储数据的容器.这里主要介绍Python的4种基本数据结构:列表.元组.字典.集合: 格式如下: 列表:list = [val1, val2, va ...

  4. Codeforces Round #517 Div. 1翻车记

    A:真的懵逼了.冷静了半天之后决定二分一下答案,然后先a安排上尽量小的再贪心地一个个扩大.40min才过.这个做法非常怂的以代码复杂度和时间复杂度为代价换取了比较稳的正确性,事实上由于1~n可以组合出 ...

  5. C# 跨服务大文件复制

    跨服务的大文件复制,肯定要和本地大文件复制一样,分多次传递,要不然内存也承受不了,下面就说下如何实现大文件的跨服务复制······ 首先肯定要建立一个WCF的服务以及对应的客户端来测试服务,此方法请参 ...

  6. (三)Redis列表List操作

    List全部命令如下: lset key index value # 将列表key下标为index的元素的值设置为value,当 index 参数超出范围,或对一个空列表(key不存在)进行lset时 ...

  7. 【题解】洛谷9月月赛加时赛 —— Never·island

    有趣有趣~ヾ(✿゚▽゚)ノ真的很有意思的一道dp题!感觉可以提供很多非常有意思的思路~ 现场打的时候考虑了很久,但并没有做出来,主要还是卡在了两个地方:1.考虑到按照端点来进行dp,但没有办法将两个端 ...

  8. HDOJ(HDU).4508 湫湫系列故事――减肥记I (DP 完全背包)

    HDOJ(HDU).4508 湫湫系列故事――减肥记I (DP 完全背包) 题意分析 裸完全背包 代码总览 #include <iostream> #include <cstdio& ...

  9. lighttpd - 配置文件

    转载其他网站,收藏查看! 配置文件lighttpd.conf参数详细说明的链接和选译 发表于 2010年12月22日 http://redmine.lighttpd.net/projects/ligh ...

  10. 51nod 1172 Partial Sums V2 卡精度的任意模数FFT

    卡精度的任意模数fft模板题……这道题随便写个表就能看出规律来(或者说考虑一下实际意义),反正拿到这题之后,很快就会发现他是任意模数fft模板题.然后我就去网上抄了一下板子……我打的是最土的任意模数f ...