最近在处理一些图的数据,主要是有向图,如果图的节点不是特别大可以直接加载到内存里来处理,但是当图的节点个数特别大时,内存就放不下了;我 们牵涉到的图的节点数最大可以达到数亿个节点,已经超出的机器内存的大小,所以必须把这些图的数据放到外存上,所以我们就选择了图数据库。

   尝试了2种图数据库,IBM System G 和 neo4j, 这两个数据库都可以处理上亿个节点的图,起始使用的是System G,但是存在一些问题,当图的节点数在300多万个,边数为1000多万个时,在创建图时就特别麻烦,程序老是创建不成功。后来就选择了 neo4j,neo4j是一个开源的图数据库,使用起来也比较方便,在创建比较大的图时速度远远超过System G;接下来把neo4j入门的知识记录下来,主要介绍neo4j嵌入在java开发中。

1、创建图(把图的数据存入neo4j)

  创建图由两种方法,一种是直接通过读取文件,在程序中显式的创建节点和边,另一种是通过加载CSV文件来创建。

1.1 程序中显示的创建图

  存放图的文件的格式如下图,以'v'开图的是顶点,后面的数字是它的id,id用从0开始顺序存放,在后面是label; 以'e'开头的行是边,后面第一个数字是边的起始点的id,第二个数字是边的终点的id,后面的字符串是边的label。

  

  创建图的方法如下:

  

 public static void create_graph(GraphDatabaseService graph, File f) throws FileNotFoundException{
Scanner scanner = new Scanner(f); while (scanner.hasNextLine()){
String line = scanner.nextLine().trim(); if (line.equals("") | line.startsWith("t")){
continue;
} else if (line.startsWith("v")) {
String nodeLabel = line.split(" ")[2]; //得到顶点的label
Label label = DynamicLabel.label(nodeLabel); //通过顶点的label,创建一个neo4j的Label类型,作为顶点的label, 这样就不用把label作为属性
try (Transaction tx = graph.beginTx()){
graph.createNode(label); //创建顶点
tx.success();
}
} else if (line.startsWith("e")) {
String[] lineSplit = line.split(" ");
int sourceId = Integer.parseInt(lineSplit[1]); //得到变得起始顶点id和终止顶点id
int targetId = Integer.parseInt(lineSplit[2]);
String edgeLabel = lineSplit[3]; //得到边的label
try (Transaction tx = graph.beginTx()){
Relationship edge = graph.getNodeById(sourceId).createRelationshipTo(graph.getNodeById(targetId), R.DIRECTED); //创建边
edge.setProperty("label", edgeLabel); //给边设置属性
tx.success();
}
}
} scanner.close();
}

1.2 通过加载CSV文件来创建图

  如果使用CSV文件的话,需要通过URL来访问文件,我们使用两个URL,一个是顶点的URL,一个是边的URL,它们的文件格式要符合csv文件的格式.

  可以创建一个本地的apache服务器来存放这些文件,我们使用的顶点和边的url分别是:

  顶点url: http://127.0.0.1/nodes

  边url:  http://127.0.0.1/edges

然后存取顶点的代码如下:

 String create_node = "USING PERIODIC COMMIT "
+ "LOAD CSV WITH HEADERS FROM 'http://127.0.0.1/nodes' AS line "
  + "CREATE (:node {label: line.label});";      //这样创建时,不能像上一种方法那样通过变量来指定label, 所以把label作为了顶点的属性了,第一个冒号前面可以指定顶点的名字,也可以不指定,冒号后面是该顶点的label.
graph.execute(create_node);    //执行cypher语言来创建结点

其中"USING PERIODIC COMMIT"的作用是分段式的创建顶点,可以认为指定读取多少行后就写入数据库,默认是读取1000行后写入数据库,例如"USING PERIODIC COMMIT 500",就是读取500行后就存入数据库.

存放边的代码如下:

 String create_edge = "USING PERIODIC COMMIT "
+ "LOAD CSV WITH HEADERS FROM 'http://127.0.0.1/edges' AS line "
+ "MATCH (p1), (p2) "    //找到边的两个顶点
+ "WHERE id(p1)=toInt(line.source) and id(p2)=toInt(line.target) "
+ "CREATE (p1)-[:DIRECTED {label: line.label}]->(p2);"; //创建边
graph.execute(create_edge);

其中,需要注意的是带有"USING PERIODIC COMMIT "的语句不能放在Transaction中执行,否则会出现如下的错误

“org.neo4j.cypher.PeriodicCommitInOpenTransactionException: Executing queries that use periodic commit in an open transaction is not possible.”

完整的创建顶点和边的方法如下:

 public static void create_nodes(GraphDatabaseService graph, String node_url) {        //创建顶点
String create_node = "USING PERIODIC COMMIT "
+ "LOAD CSV WITH HEADERS FROM " + node_url + "AS line "
+ "CREATE (:node {label: line.label});";
graph.execute(create_node);
System.out.println("nodes create successfully!");
}
//创建边
public static void create_edges(GraphDatabaseService graph, String edge_url){ String create_edge = "USING PERIODIC COMMIT "
+ "LOAD CSV WITH HEADERS FROM " + edge_url + " AS line "
+ "MATCH (p1), (p2) "
+ "WHERE id(p1)=toInt(line.source) and id(p2)=toInt(line.target) "
+ "CREATE (p1)-[:DIRECTED {label: line.label}]->(p2);";
graph.execute(create_edge); System.out.println("edges create successfully!");
}

2.得到一个顶点的所有出边的终点的id

 public static ArrayList<Long> get_out_nodes(GraphDatabaseService graph, Node node){
ArrayList<Long> out = new ArrayList<Long>();
try (Transaction tx = graph.beginTx()){
Traverser tr;
TraversalDescription td = graph.traversalDescription()
.breadthFirst()
.relationships(R.DIRECTED, Direction.OUTGOING)
.evaluator(Evaluators.excludeStartPosition());
tr = td.traverse(node);
for (Path path : tr){
if (path.length() == 1){
out.add(path.endNode().getId());
}
}
tx.success();
}
return out;
}

3.得到一个顶点的所有入边的起始点的id

  

  public static ArrayList<Long> get_in_nodes(GraphDatabaseService graph, Node node){
ArrayList<Long> in = new ArrayList<Long>();
try (Transaction tx = graph.beginTx()){
Traverser tr;
TraversalDescription td = graph.traversalDescription()
.breadthFirst()
.relationships(R.DIRECTED, Direction.INCOMING)
.evaluator(Evaluators.excludeStartPosition());
tr = td.traverse(node);
for (Path path : tr){
if (path.length() == 1){
in.add(path.endNode().getId());
}
}
tx.success();
}
return in;
}

4.得到图中所有顶点的个数

 public static int getSize(GraphDatabaseService graph){
int size = 0;
try (Transaction tx = graph.beginTx()){
Iterator<Node> it = graph.getAllNodes().iterator();
while(it.hasNext()){
size++;
it.next();
}
tx.success();
}
return size;
}

5.根据顶点的属性label的值,得到具有相同label值的顶点的个数

  public static int getSizeByLabel(GraphDatabaseService graph, String label){
try(Transaction tx = graph.beginTx()){
Label node = DynamicLabel.label("node"); //在创建顶点时,指定了顶点的label为"node",注意这个label是Label类型的,与顶点属性的label不一样
ResourceIterator<Node> result = graph.findNodes(node, "label", label);
ArrayList<Node> nodes = new ArrayList<>();
while (result.hasNext()){
nodes.add(result.next());
}
tx.success();
return nodes.size();
}
}

6. 给出顶点的id,得到该顶点某个属性的值,如label属性的值

 public static String getNodeLabel(GraphDatabaseService graph, int id){
try(Transaction tx = graph.beginTx()){
String nodeLabel = graph.getNodeById(id).getProperties("label").toString();    //返回的值的样式如下:{label=AND2X1}
String label = nodeLabel.substring(7, nodeLabel.length()-1);      //对上一步的返回值进行取子串
tx.success();
return label;
}
}

就先介绍这些基本的操作吧,以后用到新的操作了在做补充!

参考链接入下:

neo4j官方教程 

Neo4j图数据库使用的更多相关文章

  1. Neo4j图数据库管理系统开发笔记之一:Neo4j Java 工具包

    1 应用开发概述 基于数据传输效率以及接口自定义等特殊性需求,我们暂时放弃使用Neo4j服务器版本,而是在Neo4j嵌入式版本的基础上进行一些封装性的开发.封装的重点,是解决Neo4j嵌入式版本Emb ...

  2. Neo4j资料 Neo4j教程 Neo4j视频教程 Neo4j 图数据库视频教程

    课程发布地址 地址: 腾讯课堂<Neo4j 图数据库视频教程> https://ke.qq.com/course/327374?tuin=442d3e14 作者 庞国明,<Neo4j ...

  3. Neo4j视频教程 Neo4j 图数据库视频教程

    课程名称 课程发布地址 地址: 腾讯课堂<Neo4j 图数据库视频教程> https://ke.qq.com/course/327374?tuin=442d3e14 作者 庞国明,< ...

  4. Ubuntu16.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐)

    不多说,直接上干货! 说在前面的话  首先,查看下你的操作系统的版本. root@zhouls-virtual-machine:~# cat /etc/issue Ubuntu LTS \n \l r ...

  5. Ubuntu14.04下Neo4j图数据库官网安装部署步骤(图文详解)(博主推荐)

    不多说,直接上干货! 说在前面的话  首先,查看下你的操作系统的版本. root@zhouls-virtual-machine:~# cat /etc/issue Ubuntu 14.04.4 LTS ...

  6. Neo4j教程 Neo4j视频教程 Neo4j 图数据库视频教程

    课程发布地址 地址: 腾讯课堂<Neo4j 图数据库视频教程> https://ke.qq.com/course/327374?tuin=442d3e14 作者 庞国明,<Neo4j ...

  7. Neo4j图数据库从入门到精通

    目录 第一章:介绍 Neo4j是什么 Neo4j的特点 Neo4j的优点 第二章:安装 1.环境 2.下载 3.开启远程访问 4.启动 第三章:CQL 1.CQL简介 2.Neo4j CQL命令/条款 ...

  8. Neo4j图数据库从入门到精通(转)

    add by zhj: 转载时,目录没整理好,还会跳转到原文 其实RDB也可以存储多对多的关系,使用的是中间表,GDB使用的是边,RDB中的实体存储在数据表,而GDB存储在节点.两者使用的底层技术不同 ...

  9. 使用neo4j图数据库的import工具导入数据 -方法和注意事项

    背景 最近我在尝试存储知识图谱的过程中,接触到了Neo4j图数据库,这里我摘取了一段Neo4j的简介: Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中.它是一个嵌 ...

  10. NEO4J 图数据库使用APOC数据导入

       Neo4j 数据导入 一.安装与部署 直接在官网下载安装包安装,解压即可. 二.下载相应的jar包 apoc 包下载链接: https://github.com/neo4j-contrib/ne ...

随机推荐

  1. python 用lambda表达式代替简单的函数, 匿名函数

    lambda 函数是一种快速定义单行的最小函数,可以用在任何需要函数的地方 格式: lambda 参数列表:return [表达式] 变量 由于lambda返回的是函数对象(构建的是一个函数对象),所 ...

  2. 使用axios优雅的发起网络请求

    原文链接:https://www.jianshu.com/p/73585303fdc0 公司项目使用了vue作为技术栈,便理所应当地使用了官方推荐的axios进行网络请求,这里记录下axios的封装方 ...

  3. 雾霾天出行,如何精确避开“雷区”?2016 SODA数据侠十强

    (2016年参加了上海 SODA 竞赛,进入前十,最终获得上海市的两个奖项.) ▍跟踪雾霾,仅靠零星的监测点数据怎么行? 如果雾霾短期内没有办法彻底根治,我们可以做什么,把环境污染物对人的影响尽可能降 ...

  4. MySQL外键约束_ON DELETE CASCADE/ON UPDATE CASCADE

    MySQL通过外键约束实现数据库的参照完整性,外键约束条件可在创建外键时指定,table的存储引擎只能是InnoDB,因为只有这种存储模式才支持外键. 外键约束条件有以下4种: (1)restrict ...

  5. Python paramiko 修改源码实现用户命令抓取

    paramiko 源码修改 paramiko主要用来实现ssh客户端.服务端链接,上一节我们说到了堡垒机,堡垒机内有一个需求是“用户行为审计”,在这里我们就可以通过修改paramiko内文件的源码来实 ...

  6. 使用python玩跳一跳亲测使用步骤详解

    玩微信跳一跳,测测python跳一跳,顺便蹭一蹭热度: 参考博文 使用python玩跳一跳超详细使用教程 WIN10系统,安卓用户请直入此: python辅助作者github账号为:wangshub. ...

  7. onsubmit 事件

    onsubmit 事件 Event 对象 定义和用法 onsubmit 事件会在表单中的确认按钮被点击时发生. 语法 onsubmit="SomeJavaScriptCode" 参 ...

  8. Excel 表格查找重复数据,去重复统计

    找出表格是否有重复数据: =IF(AND(G20=G19,D20=D19),"是","否") 筛选移除[重复的数据]然后开始统计 =SUBTOTAL(9,E2: ...

  9. angular面试记忆的内容

    1.ng-class的用法:ng-class="{red:true}"; 2.ng-repeat怎么可以添加重复数据.ng-repeat="item in arr tra ...

  10. arch Linux(二)

    配置你的基本系统 下列是基于该视频4:40s的流水- 切换到普通用户: [root@eric-laptop ~]# su eric 查看系统信息: [eric@eric-laptop root]$ n ...