JanusGraph 创建索引步骤(composite index)踩坑总结
前言
JanusGraph是一个图数据库引擎,安装及入门可以参考 JanusGraph 图数据库安装小记。为了提高查询速度,在使用过程中一般要为某些属性创建索引。这篇随笔主要是记录创建索引过程中踩过的坑。
索引介绍
与mysql创建索引不同,JanusGraph的索引有一套生命周期,如下图所示:

我们的目标是从<create>索引开始,通过一系列action,最终使索引进入ENABLED状态。
下面简单说明以下各个状态及操作:
States(SchemaStatus)
- INSTALLED The index is installed in the system but not yet registered with all instances in the cluster
- REGISTERED The index is registered with all instances in the cluster but not (yet) enabled
- ENABLED The index is enabled and in use (到这一步索引就可以用啦)
- DISABLED The index is disabled and no longer in use (删除索引)
Actions (SchemaAction)
- REGISTER_INDEX Registers the index with all instances in the graph cluster. After an index is installed, it must be registered with all graph instances
- REINDEX Re-builds the index from the graph(如果我们创建索引时已经存在数据,需要执行这个Action)
- ENABLE_INDEX Enables the index so that it can be used by the query processing engine. An index must be registered before it can be enabled
- DISABLE_INDEX Disables the index in the graph so that it is no longer used
- REMOVE_INDEX Removes the index from the graph (optional operation). Only on composite index
创建索引
创建索引的JanusGraph官方教程所描述的方法是一种理想情况,命令如下:
graph.tx().rollback() mgmt = graph.openManagement()
name = mgmt.getPropertyKey('name')
mgmt.buildIndex('byNameComposite', Vertex.class).addKey(name).buildCompositeIndex() //Wait for the index to become available
ManagementSystem.awaitGraphIndexStatus(graph, 'byNameComposite').call() //Reindex the existing data
mgmt.updateIndex(mgmt.getGraphIndex("byNameComposite"), SchemaAction.REINDEX).get() mgmt.commit()
实际上在操作时会遇到很多问题,其中最头疼的就是在执行 awaitGraphIndexStatus()方法时,会报 “Script evaluation exceeded the configured 'scriptEvaluationTimeout' threshold of 30000 ms or evaluation was otherwise cancelled directly for request [mgmt.awaitGraphIndexStatus(graph, 'byNameComposite').call()]” 的错误。
上面的命令其实忽略了关键的几步,下面具体说明以下。
1. 创建索引之前,确定JanusGraph没有其它事务正在运行
官方文档说明如下:
The name of a graph index must be unique. Graph indexes built against newly defined property keys, i.e. property keys that are defined in the same management transaction as the index, are immediately available. Graph indexes built against property keys that are already in use require the execution of a reindex procedure to ensure that the index contains all previously added elements. Until the reindex procedure has completed, the index will not be available. It is encouraged to define graph indexes in the same transaction as the initial schema.
查询事务命令:
graph.getOpenTransactions()
假设有其它3条事务,通过官方的 graph.tx().rollback() 命令是无法全部关闭的,实际情况如下
gremlin> graph.getOpenTransactions()
==>standardtitantx[0x1e14c346]
==>standardtitantx[0x7a0067f2]
==>standardtitantx[0x0de3ee40]
gremlin> graph.tx().rollback()
==>null
gremlin> graph.getOpenTransactions()
==>standardtitantx[0x1e14c346]
==>standardtitantx[0x7a0067f2]
==>standardtitantx[0x0de3ee40]
正确的关闭方法:
for(i=0;i<size;i++) {graph.getOpenTransactions().getAt(0).rollback()} //size替换为事务的数量
2. 执行 REGISTER_INDEX ACTION,使索引状态INSTALLED 转为 REGISTERED
官方文档里没有这关键的一步,在创建完索引后,需要执行以下命令
m = graph.openManagement()
m.updateIndex(m.getGraphIndex('index'), SchemaAction.REGISTER_INDEX).get()
m.commit()
其中第三条命令执行后实际上是在后台运行的,此时如果我们执行 ManagementSystem.awaitGraphIndexStatus(graph,"byNameComposite").status(SchemaStatus.REGISTERED).call() ,等待30s后很可能依然返回超时错误。这时候需要耐心等待。期间,我们可以通过查看后台cassandra进程CPU占用率来判断是否执行完成。或者可以直接查看索引的状态:
mgmt = graph.openManagement()
index = mgmt.getGraphIndex('index')
Index.getIndexStatus(mgmt.getPropertyKey('name'))
等待一段时间后,索引的状态最终会变为 REGISTERED,此时再执行awaitGraphIndexStatus() ,会返回
GraphIndexStatusReport[success=true, indexName='byTitleLowercaseComposite', targetStatus=[REGISTERED], notConverged={}, converged={title_lowercase=REGISTERED}, elapsed=PT0.001S]
注意:若索引迟迟没有变为REGISTERED,也可尝试进行下一步,更新到ENABLE。
3. 执行REINDEX与ENABLE_INDEX,完成索引
与上一步类似,需要通过updateIndex()方法来改变索引状态。如果要索引的属性中还未导入数据,则不需要REINDEX的操作,下面的命令二选一:
REINDEX ACTION:
m = graph.openManagement()
m.updateIndex(m.getGraphIndex('index'), SchemaAction.REINDEX).get()
m.commit() ManagementSystem.awaitGraphIndexStatus(graph, 'byNameComposite').status(SchemaStatus.ENABLED).call()
ENABLED ACTION:
m = graph.openManagement()
m.updateIndex(m.getGraphIndex('index'), SchemaAction.ENABLE_INDEX).get()
m.commit() ManagementSystem.awaitGraphIndexStatus(graph, 'byNameComposite').status(SchemaStatus.ENABLED).call() 错误示例:
i = m.getGraphIndex('index')
m.updateIndex(i, SchemeAction.ENABLE_INDEX)
m.commit() 必须要加‘get()’
到最后, 执行awaitGraphIndexStatus()返回成功信息:
GraphIndexStatusReport[success=true, indexName='byTitleLowercaseComposite', targetStatus=[ENABLED], notConverged={}, converged={title_lowercase=ENABLED}, elapsed=PT0.001S]
到此,索引就创建完毕了,如果想要了解更多问题可以留言讨论,或者科学上网进一步学习。
JanusGraph 创建索引步骤(composite index)踩坑总结的更多相关文章
- ES建立索引步骤, 1,index 2.mapping 3,别名
1.建立索引PUT /index_trans_detail 2.建立mappingPOST /index_trans_detail/type_trans_detail/_mapping{ " ...
- SAS创建和使用索引(SAS INDEX)
一.概述 在合并数据集的时候,可以使用DATA步,但使用DATA 步时需要对KEY VALUE 排序,且KEY VALUE 的名字也必须一致:也可以用PROC SQL ,不需要进行上述排序.重命名的步 ...
- SQL语句-创建索引
语法:CREATE [索引类型] INDEX 索引名称ON 表名(列名)WITH FILLFACTOR = 填充因子值0~100 GO USE 库名GO IF EXISTS (SELECT * FRO ...
- hive创建索引
索引是hive0.7之后才有的功能,创建索引需要评估其合理性,因为创建索引也是要磁盘空间,维护起来也是需要代价的 创建索引 hive> create index [index_studentid ...
- SQLServer 语句-创建索引
语法:CREATE [索引类型] INDEX 索引名称ON 表名(列名)WITH FILLFACTOR = 填充因子值0~100GO /*实例*/USE 库名GOIF EXISTS (SELECT * ...
- 索引 使用use index优化sql查询
好博客:MySQL http://webnoties.blog.163.com/blog/#m=0&t=1&c=fks_08407108108708107008508508609508 ...
- 几百万的数据,mysql快速高效创建索引
有一个问题,一张表有3百万条记录,随着时间的增加,记录量会更多,此时查询速度很慢.在创建此表前没有未相应字段添加索引,所以此时需要为表添加索引.但是因为数据量大的原因,索引添加不成功,想了很多办法,终 ...
- SQLServer 语句-创建索引【转】
语法:CREATE [索引类型] INDEX 索引名称ON 表名(列名)WITH FILLFACTOR = 填充因子值0~100GO /*实例*/USE 库名GOIF EXISTS (SELECT * ...
- hive:创建索引
hive也是支持索引的使用,但是如果表中已经有数据的情况下,创建索引的过程不是特别快. 已经拥有表: create table if not exists llcfpd_withgroupbykey( ...
随机推荐
- 11 Sping框架--AOP的相关概念及其应用
1.AOP的概念 AOP(Aspect Oriented Programming 面向切面编程),通过预编译方式和运行期动态代理实现程序功能的统一维护的一种技术.AOP是OOP的延续,是软件开发中的一 ...
- 【C++札记】标准输入与输出
概述 C语言中使用函数scanf和printf作为标准输入和输出,在C++中引入了类cin和cout进行标准输入和输出,所需头文件为<iostream>,命名空间是std.这里所说的标准输 ...
- pychram 中 Terminal 中 git log 中文乱码解决办法
添加环境变量 set LESSCHARSET=utf-8 执行以下命令 git config --global core.quotepath false 不成功执行以下命令 git config -- ...
- LeetCode第151场周赛(Java)
这是我第一次写周赛的题目,而且还是虚拟的.从这次起,以后就将所有错过的题目都写到博客来.当然既然是我错的,那代码肯定不是我自己的.我会注明来源.并且我会自己敲一遍.多总结总是没坏处的. 另外比较糟糕的 ...
- Magic Line(思维+计算几何问题)(2019牛客暑期多校训练营(第三场))
示例: 输入: 140 1-1 01 00 -1 输出:-1 999000000 1 -999000001 题意:给定平面上一系列的点,求一条以(x1,y1),(x2,y2)两点表示的直线将平面分为包 ...
- Keyboard Purchase CodeForces - 1238E (状压)
大意: 给定串$s$, 字符集为字母表前$m$个字符, 求一个$m$排列$pos$, 使得$\sum\limits_{i=2}^n|{pos}_{s_{i-1}}-{pos}_{s_{i}}|$最小. ...
- [高清] JavaEE开发的颠覆者 Spring Boot实战 完整版
------ 郑重声明 --------- 资源来自网络,纯粹共享交流, 如果喜欢,请您务必支持正版!! --------------------------------------------- 下 ...
- caffe模型的一些解释~
转自:https://blog.csdn.net/wjmishuai/article/details/50890214 刚开始摸caffe,找了个比较清楚的模型. 原始数据是28* input: &q ...
- 记redis一次Could not get a resource from the pool 异常的解决过程
最近有个项目中的redis每天都会报 "Could not get a resource from the pool"的错误,而这套代码在另一地方部署又没有问题.一直找不到错误原因 ...
- Linux中etc目录详解大全总汇详解
/etc etc不是什么缩写,是and so on的意思 来源于 法语的 et cetera 翻译成中文就是 等等 的意思. 至于为什么在/etc下面存放配置文件, 按照原始的UNIX的说法(Linu ...