第1部分  Titan的优势

    Titan的设计是为了支持无法在单台服务器上进行存储和计算的图集处理。对于实时遍历和分析查询的缩放图数据处理是泰坦的基础,对实时遍历和分析查询的弹性数据处理是Titan的基本优势。本节将讨论Titan的各种具体好处,以及它所支持的持久性解决方案。

1.1     一般特性


  • 支持大规模图集,其支持的规模随集群的节点扩展而扩展。
  • 支持大规模并发事务及图操作。Titan的事务处理能力与集群中的机器数量成比例,并能在几毫秒内完成遍历查询。
  • 支持通过Hadoop框架进行全局图分析和批处理图处理。
  • 支持geo、数值范围,以及在非常大的图形上对顶点和边的全文搜索。
  • 原生支持由TinkerPop公开的主流的图数据模型。
  • 原生支持图形遍历语言Gremlin。
  • 与Gremlin图形服务器轻松集成,实现非语言相关性编程。
  • 对于许多图集配置项提供性能优化调节支持。
  • 以顶点为中心的索引提供了顶点级查询,以缓解与臭名昭著的超级节点问题相关的问题。
  • 提供一个优化的磁盘指标,以便有效地使用存储和访问速度。
  • 在Apache 2许可下开源。


1.2     Titan 集成 Cassandra


  •   高可用,没有单点故障。
  •   作为非主/从架构,对图形的读/写没有瓶颈。
  •   允许添加和拆卸Elastic scalability。
  •   缓存层确保在内存中可以连续访问数据。
  •   通过向集群添加更多的机器来增加缓存的大小。
  •   使用Hadoop集成。
  • 在Apache 2许可下开源。


1.3     Titan with HBase


  •   与Hadoop生态系统无缝结合。
  •   本机支持强一致性。
  •   线性可伸缩性
  •   严格一致的读和写。
  •   方便的基类支持Hadoop MapReduce任务和HBase表。
  •   支持通过JMX导出指标。
  • 在Apache 2许可下开源。


1.4     Titan and the CAP Theorem

    尽管你尽了最大的努力,但你的系统将经历足够的故障,以至于它不得不在减少产量(也就是)之间做出选择。停止回答请求,减少收获。,根据不完整的数据给出答案。这个决策应该基于业务需求。

                                                                                                                                                                                   ——Coda Hale


    在使用数据库时,应充分考虑CAP定理(C =一致性,a =可用性,P =Partitionability)。Titan以3个支持端分布:Cassandra、HBase和BerkeleyDB。他们对CAP定理的权衡在下图中表示。请注意,BerkeleyDB是一个非分布式数据库,因此,它通常只用于测试和探索的Titan。


    HBase倾向于以牺牲收益为代价,即完成请求的概率。Cassandra对可用性以收获为代价,即对查询的答案的完整性(数据可用/完整的数据)。