泰坦数据集分类 python 泰坦数科是干什么的

转载

mob6454cc79ab13 2023-12-01 09:24:27

文章标签 泰坦数据集分类 python titan Hadoop 数据 Apache 文章分类 Python 后端开发

第1部分 Titan的优势

Titan的设计是为了支持无法在单台服务器上进行存储和计算的图集处理。对于实时遍历和分析查询的缩放图数据处理是泰坦的基础，对实时遍历和分析查询的弹性数据处理是Titan的基本优势。本节将讨论Titan的各种具体好处，以及它所支持的持久性解决方案。

1.1 一般特性

支持大规模图集，其支持的规模随集群的节点扩展而扩展。
支持大规模并发事务及图操作。Titan的事务处理能力与集群中的机器数量成比例，并能在几毫秒内完成遍历查询。
支持通过Hadoop框架进行全局图分析和批处理图处理。
支持geo、数值范围，以及在非常大的图形上对顶点和边的全文搜索。
原生支持由TinkerPop公开的主流的图数据模型。
原生支持图形遍历语言Gremlin。
与Gremlin图形服务器轻松集成，实现非语言相关性编程。
对于许多图集配置项提供性能优化调节支持。
以顶点为中心的索引提供了顶点级查询，以缓解与臭名昭著的超级节点问题相关的问题。
提供一个优化的磁盘指标，以便有效地使用存储和访问速度。
在Apache 2许可下开源。

1.2 Titan 集成 Cassandra

高可用，没有单点故障。
作为非主/从架构，对图形的读/写没有瓶颈。
允许添加和拆卸Elastic scalability。
缓存层确保在内存中可以连续访问数据。
通过向集群添加更多的机器来增加缓存的大小。
使用Hadoop集成。
在Apache 2许可下开源。

1.3 Titan with HBase

与Hadoop生态系统无缝结合。
本机支持强一致性。
线性可伸缩性
严格一致的读和写。
方便的基类支持Hadoop MapReduce任务和HBase表。
支持通过JMX导出指标。
在Apache 2许可下开源。

1.4 Titan and the CAP Theorem

尽管你尽了最大的努力，但你的系统将经历足够的故障，以至于它不得不在减少产量(也就是)之间做出选择。停止回答请求，减少收获。，根据不完整的数据给出答案。这个决策应该基于业务需求。

——Coda Hale

在使用数据库时，应充分考虑CAP定理(C =一致性，a =可用性，P =Partitionability)。Titan以3个支持端分布:Cassandra、HBase和BerkeleyDB。他们对CAP定理的权衡在下图中表示。请注意，BerkeleyDB是一个非分布式数据库，因此，它通常只用于测试和探索的Titan。

HBase倾向于以牺牲收益为代价，即完成请求的概率。Cassandra对可用性以收获为代价，即对查询的答案的完整性(数据可用/完整的数据)。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。