本节将使用Gods图作为演示示例,此图在JanusGraph演示中广泛使用。该图如下图所示。这个抽象的数据模型对应图模型中的属性,这个特定的实例描述了罗马万神殿中人物和地点之间的关系。此外,图中的特殊文本和符号修饰符(如:粗体、下划线等)表示图中不同的示意图/类型。




图数据库neo4j 技术架构 图数据库janusgraph实战 pdf_大数据


Graph of the Gods


标示

含义

加粗的key

图中的索引键

加粗带星的key

图中的索引键值必须是唯一的

带下划线的key

以顶点为中心的索引键

空心箭头的边

特定的边(不能重复)

尾部十字的边

单项边(只能在一个方向建立关系)

下载Janusgraph并运行Gremlin Console

JanusGraph可以从项目仓库的Releases分支下载。下载完成后解压文件夹就可以启动Gremlin Console。Gremlin Console是在JanusGraph包中自带的一个REPL(即交互式的shell),这跟标准的Gremlin Console有所不同,因为它是JanusGraph预安装和预加载的包。或者,用户可以从中心仓库下载JanusGraph包然后使用已有Gremlin Console来安装和激活JanusGraph。在下面的示例中,将使用janusgraph的压缩包,但是,请务必记得先解压下载的zip包。

注意:JanusGraph依赖Java 8(标准版)。 建议使用Oracle Java 8。 JanusGraph的shell脚本执行需要配置$ JAVA_HOME环境变量,它指向JRE或JDK的安装目录。

$ unzip janusgraph-0.3.1-hadoop2.zip
Archive:  janusgraph-0.3.1-hadoop2.zip
  creating: janusgraph-0.3.1-hadoop2/
...
$ cd janusgraph-0.3.1-hadoop2
$ bin/gremlin.sh

         \,,,/
         (o o)
-----oOOo-(3)-oOOo-----
09:12:24 INFO  org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph  - HADOOP_GREMLIN_LIBS is set to: /usr/local/janusgraph/lib
plugin activated: tinkerpop.hadoop
plugin activated: janusgraph.imports
gremlin>

Gremlin Console使用Apache Groovy解释执行命令。Groovy构建在Java语言之上,具有很多简洁的语法,使交互式编程变得更加容易。同样的,Gremlin-Groovy也是构建在Groovy之上,具有简洁的语法,使得图的遍历变得容易。下面的例子将展示如何处理numbers、strings和maps。本教程的其他部分将讨论如何构建特定的图。

gremlin> 100-10
==>90
gremlin> "JanusGraph:" + " The Rise of Big Graph Data"
==>JanusGraph: The Rise of Big Graph Data
gremlin> [name:'aurelius', vocation:['philosopher', 'emperor']]
==>name=aurelius
==>vocation=[philosopher, emperor]

提醒:有关Gremlin更多使用方式请参考:Apache TinkerPopSQL2GremlinGremlin Recipes

加载Gods图到JanusGraph中

下面的示例将建立一个JanusGraph图实例并加载上图所示的Gods图数据集。JanusGraphFactory提供了一组静态方法,通过配置文件作为参数来获得graph实例。本教程将使用一份使用BerkeleyDB作数据库,Elasticsearch作索引的配置文件来获取graph实例,并使用辅助类GraphOfTheGodsFactory来加载Gods图。 本节将暂时跳过这些详细的配置信息,但有关数据库,索引及其他的配置信息,请参见第III部分“数据库”,第IV部分,“索引”和第15章“配置参考”。

gremlin> graph = JanusGraphFactory.open('conf/janusgraph-berkeleyje-es.properties')
==>standardjanusgraph[berkeleyje:../db/berkeley]
gremlin> GraphOfTheGodsFactory.load(graph)
==>null
gremlin> g = graph.traversal()
==>graphtraversalsource[standardjanusgraph[berkeleyje:../db/berkeley], standard]

JanusGraphFactory.open()GraphOfTheGodsFactory.load()方法构造图的具体操作如下:

  1. 在图中创建全局的以顶点为中心的索引集。
  2. 添加所有的顶点及其属性到图中。
  3. 添加所有的边及其属性到图中。

更多细节请参考GraphOfTheGodsFactory的源码。

对于使用JanusGraph / Cassandra(或JanusGraph / HBase)的用户,请使用conf / janusgraph-cql-es.properties(或conf / janusgraph-hbase-es.properties)相关配置和GraphOfTheGodsFactory.load()

gremlin> graph = JanusGraphFactory.open('conf/janusgraph-cql-es.properties')
==>standardjanusgraph[cql:[127.0.0.1]]
gremlin> GraphOfTheGodsFactory.load(graph)
==>null
gremlin> g = graph.traversal()
==>graphtraversalsource[standardjanusgraph[cql:[127.0.0.1]], standard]

您也可以使用conf / janusgraph-cql.properties、conf / janusgraph-berkeleyje.properties或者conf / janusgraph-hbase.properties配置文件来获取graph实例,而不配置索引。 在这种情况下,你需要使用GraphOfTheGodsFactory.loadWithoutMixedIndex方法来加载Gods图,这样它将不会创建索引。

gremlin> graph = JanusGraphFactory.open('conf/janusgraph-cql.properties')
==>standardjanusgraph[cql:[127.0.0.1]]
gremlin> GraphOfTheGodsFactory.loadWithoutMixedIndex(graph, true)
==>null
gremlin> g = graph.traversal()
==>graphtraversalsource[standardjanusgraph[cql:[127.0.0.1]], standard]

全局图索引

使用图数据库中数据的典型模式是首先使用图索引来确定起始点。该起始点是一个元素(或一组元素) - 即顶点或边。从起始点,Gremlin路径描述描述了如何通过显示的图结构来遍历图中的其他点。

通过name属性上的唯一索引,可以检索到Saturn顶点,然后可以查到它的所有属性值(即Saturn属性的键值对)。如图所示,顶点Saturn的名字是“Saturn”,年龄是10000,类别是“titan”。 Saturn的孙子通过遍历语句可以表示为:“谁是Saturn的孙子?” (“父亲”的反面是“孩子”)。 检索到的结果是Hercules。

gremlin> saturn = g.V().has('name', 'saturn').next()
==>v[256]
gremlin> g.V(saturn).valueMap()
==>[name:[saturn], age:[10000]]
gremlin> g.V(saturn).in('father').in('father').values('name')
==>hercules

属性place也在图索引中。属性place是边的一个属性。因此JanusGraph可以通过图的索引索引到边。它可以查询Gods图中发生在Athens(纬度:37.97, 经度:23.72) 50km范围内的信息。然后通过这些信息查看涉及到哪些顶点。

gremlin> g.E().has('place', geoWithin(Geoshape.circle(37.97, 23.72, 50)))
==>e[a9x-co8-9hx-39s][16424-battled->4240]
==>e[9vp-co8-9hx-9ns][16424-battled->12520]
gremlin> g.E().has('place', geoWithin(Geoshape.circle(37.97, 23.72, 50))).as('source').inV().as('god2').select('source').outV().as('god1').select('god1', 'god2').by('name')
==>[god1:hercules, god2:hydra]
==>[god1:hercules, god2:nemean]

图索引是JanusGraph中的一种索引结构。JanusGraph会自动使用索引来检索满足一个或多个约束条件的所有顶点(g.V)或边(g.E)。JanusGraph中另外一种索引是以顶点为中心的索引。以顶点为中心的索引可以加快图的遍历。以顶点为中心的索引将在后续中讲解。

图遍历示例

Hercules是Jupiter和Alcmene的儿子,拥有超能力。Hercules是一个半神半人,因为他的爸爸是神他的妈妈是人类。Jupiter的妻子Juno对Jupiter的不忠感到愤怒,为了复仇,她弄瞎了Hercules的双眼导致他杀死了自己的妻子和孩子。为了赎罪,Delphi命令Hercules为Eurystheus服务,Eurystheus让他做12年的工人。

上一节中,证明了Saturn的孙子是Hercules。这也可以使用循环的方式来查询,实际上Hercules是从Saturn在in('father') 路径上循环两次到达的点。

gremlin> hercules = g.V(saturn).repeat(__.in('father')).times(2).next()
==>v[1536]

Hercules是一个半神半人,为了证明Hercules半神半人,需要查询他父母的起源。可以从Hercules顶点去遍历他的母亲和父亲。最后可以去确定他们的类型是“god”和“human”。

gremlin> g.V(hercules).out('father', 'mother')
==>v[1024]
==>v[1792]
gremlin> g.V(hercules).out('father', 'mother').values('name')
==>jupiter
==>alcmene
gremlin> g.V(hercules).out('father', 'mother').label()
==>god
==>human
gremlin> hercules.label()
==>demigod

到目前为止,这些例子涉及了罗马万神殿中各种人物的遗传关系。 图的属性模型足以表示各种的事物和关系。 通过这种方式,Gods图也展示了Hercules的各种英雄事迹 - 他著名的12年工作。 在上一节中,发现Hercules参与了雅典附近的两场战争。 可以通过Hercules顶点遍历battled边来检索这些事件。

gremlin> g.V(hercules).out('battled')
==>v[2304]
==>v[2560]
==>v[2816]
gremlin> g.V(hercules).out('battled').valueMap()
==>[name:[nemean]]
==>[name:[hydra]]
==>[name:[cerberus]]
gremlin> g.V(hercules).outE('battled').has('time', gt(1)).inV().values('name')
==>cerberus
==>hydra

这个在battled边上的time属性是通过点的顶点中心索引来建立的索引。根据约束/过滤通过time检索Hercules的battled边比线性检索所有的边和过滤(通常为O(log n),n代表边的数目)更快。JanusGraph非常智能,在可以使用的时候会使用以顶点为中心的索引。Gremlin的toString()表达式将分解为单个步骤来展示。

gremlin> g.V(hercules).outE('battled').has('time', gt(1)).inV().values('name').toString()
==>[GraphStep([v[24744]],vertex), VertexStep(OUT,[battled],edge), HasStep([time.gt(1)]), EdgeVertexStep(IN), PropertiesStep([name],value)]

更复杂的图遍历示例

下面将展示更多关于Gods图的Gremlin遍历的例子。每个遍历查询的说明在注释中显示。

Tartarus的同居者

gremlin> pluto = g.V().has('name', 'pluto').next()
==>v[2048]
gremlin> // who are pluto's cohabitants?
gremlin> g.V(pluto).out('lives').in('lives').values('name')
==>pluto
==>cerberus
gremlin> // pluto can't be his own cohabitant
gremlin> g.V(pluto).out('lives').in('lives').where(is(neq(pluto))).values('name')
==>cerberus
gremlin> g.V(pluto).as('x').out('lives').in('lives').where(neq('x')).values('name')
==>cerberus

Pluto的兄弟

gremlin> // where do pluto's brothers live?
gremlin> g.V(pluto).out('brother').out('lives').values('name')
==>sky
==>sea
gremlin> // which brother lives in which place?
gremlin> g.V(pluto).out('brother').as('god').out('lives').as('place').select('god', 'place')
==>[god:v[1024], place:v[512]]
==>[god:v[1280], place:v[768]]
gremlin> // what is the name of the brother and the name of the place?
gremlin> g.V(pluto).out('brother').as('god').out('lives').as('place').select('god', 'place').by('name')
==>[god:jupiter, place:sky]
==>[god:neptune, place:sea]

最后Pluto居住在Tartarus因为他不在乎死亡。而他的兄弟们根据这些地方的品质来选择他们居住的地方。

gremlin> g.V(pluto).outE('lives').values('reason')
==>no fear of death
gremlin> g.E().has('reason', textContains('loves'))
==>e[6xs-sg-m51-e8][1024-lives->512]
==>e[70g-zk-m51-lc][1280-lives->768]
gremlin> g.E().has('reason', textContains('loves')).as('source').values('reason').as('reason').select('source').outV().values('name').as('god').select('source').inV().values('name').as('thing').select('god', 'reason', 'thing')
==>[god:neptune, reason:loves waves, thing:sea]
==>[god:jupiter, reason:loves fresh breezes, thing:sky]