NoSQL 分布式数据库分布式数据库和nosql

转载

lazihuman 2023-08-31 07:22:46

文章标签 NoSQL 分布式数据库 NoSQL Hadoop 分布式数据库 HBase 文章分类 NoSQL 数据库

一、概念

NoSQL 最开始表示反SQL运动，用新型的非关系数据库取代关系数据库。但是现在NoSQL变成了not only SQL，不仅仅是关系型SQL，现在表示关系和非关系数据库都有优缺点，彼此都无法互相取代。

二、NoSQL数据库特点

灵活的可扩展性
灵活的数据模型
与云计算的完美融合

三、NoSQL数据技术出现的原因

关系数据库在这个海量数据的时代情形下，无法满足Web2.0的需求，主要体现在：

无法满足海量数据的管理需求
无法满足数据高并发的需求
无法满足高扩展和高可用的需求

NoSQL 分布式数据库分布式数据库和nosql_HBase

四、NoSQL技术和关系数据库的比较

比较标准	RDBMS	NoSQL	备注
数据库原理	完全支持	部分支持	RDBMS有关系代数理论作为基础，NoSQL没有统一的理论基础
数据规模	大	超大	RDBMS很难实现横向扩展，纵向扩展的空间也比较有限，性能会随着数据规模的增大而降低，NoSQL可以很容易通过添加更多设备来支持更大规模的数据
数据库模式	固定	灵活	RDBMS需要定义数据库模式，严格遵守数据定义和相关约束条件；NoSQL不存在数据库模式，可以自由灵活定义并存储各种不同类型的数据
查询效率	快	可以实现高效的简单查询，但是不具备高度结构化查询等特征，复杂查询的性能较慢	RDBMS借助于索引机制可以实现快速查询（包括记录查询和范围查询）很多NoSQL数据库没有面向复杂查询的索引，虽然NoSQL可以使用MapReduce来加速查询，但是，在复杂查询方面的性能仍然不如RDBMS
一致性	强一致性	弱一致性	RDBMS严格遵守事务ACID模型，可以保证事务强一致性,很多NoSQL数据库放松了对事务ACID四性的要求，而是遵守BASE模型，只能保证最终一致性
数据完整性	容易实现	很难实现	任何一个RDBMS都可以很容易实现数据完整性，比如通过主键或者非空约束来实现实体的完整性，通过主键、外键来实现参照完整性，通过约束和触发器来实现用户自定义完整性；但是NoSQL数据库很难以实现
扩展性	一般	好	RDBMS很难实现横向扩展，纵向扩展的空间也比较有限NoSQL在设计之初就充分考虑了横向扩展的需求，可以很容易通过添加廉价设备实现扩展
可用性	好	很好	RDBMS在任何时候都以保证数据一致性为优先目标，其次才是优化系统性能，随着数据规模的增大，RDBMS为了保证严格的一致性，只能提供相对较弱的可用性大多数NoSQL都能提供较高的可用性
标准化	是	否	RDBMS已经标准化（SQL），NoSQL还没有行业标准，不同的NoSQL数据库都有自己的查询语言，很难规范应用程序接口，可能会拉慢NoSQL的发展
技术支持	高	低	RDBMS经过十几年的发展，已经非常成熟了，Oracle等大型厂商都可以提供很好的技术支持；NoSQL在技术支持方面仍处于起步阶段，还不够成熟，缺乏有力的技术支持
可维护性	复杂	复杂	RDBMS需要专门的数据管理员（DBA）维护 NoSQL数据库虽然没有RDBMS复杂，但是也难以维护

五、NoSQL数据库的主要类型

按照存储方式分类

键值数据库
列族数据库
文档数据库
图形数据库

六、NoSQL数据库的代表产品

NoSQL 分布式数据库分布式数据库和nosql_分布式数据库_02

七、简单谈不同类型的NoSQL

1.键值数据库

相关产品	Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached
数据模型	键/值对键是一个字符串对象值可以是任意类型的数据，比如整型、字符型、数组、列表、集合等
典型应用	涉及频繁读写、拥有简单数据模型的应用内容缓存，比如会话、配置文件、参数、购物车等存储配置和用户数据信息的移动应用
优点	扩展性好，灵活性好，大量写操作时性能高
缺点	无法存储结构化信息，条件查询效率较低
不适用情形	不是通过键而是通过值来查：键值数据库根本没有通过值查询的途径需要存储数据之间的关系：在键值数据库中，不能通过两个或两个以上的键来关联数据需要事务的支持：在一些键值数据库中，产生故障时，不可以回滚
使用者	百度云数据库（Redis）、GitHub（Riak）、BestBuy（Riak）、Twitter （Redis和Memcached）、StackOverFlow（Redis）、Instagram （Redis）、Youtube（Memcached）、Wikipedia（Memcached）
相关产品	BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS
数据模型	列族
典型应用	分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序可以容忍副本中存在短期不一致情况的应用程序拥有动态字段的应用程序拥有潜在大量数据的应用程序，大到几百TB的数据
优点	查找速度快，可扩展性强，容易进行分布式扩展，复杂性低
缺点	功能较少，大都不支持强事务一致性
不适用情形	需要ACID事务支持的情形，Cassandra等产品就不适用
使用者	Ebay（Cassandra）、Instagram（Cassandra）、NASA（Cassandra）、Twitter（Cassandra and HBase）、Facebook（HBase）、Yahoo!（HBase）

2.文档数据库

相关产品	MongoDB、CouchDB、Terrastore、ThruDB、RavenDB、SisoDB、RaptorDB、CloudKit、Perservere、Jackrabbit
数据模型	键/值值（value）是版本化的文档
典型应用	存储、索引并管理面向文档的数据或者类似的半结构化数据比如，用于后台具有大量读写操作的网站、使用JSON数据结构的应用、使用嵌套结构等非规范化数据的应用程序
优点	性能好（高并发），灵活性高，复杂性低，数据结构灵活提供嵌入式文档功能，将经常查询的数据存储在同一个文档中既可以根据键来构建索引，也可以根据内容构建索引
缺点	缺乏统一的查询语法
不适用情形	在不同的文档上添加事务。文档数据库并不支持文档间的事务，如果对这方面有需求则不应该选用这个解决方案
使用者	百度云数据库（MongoDB）、SAP （MongoDB）、Codecademy（MongoDB）、Foursquare （MongoDB）、NBC News （RavenDB）

八、图数据库

相关产品	Neo4J、OrientDB、InfoGrid、Infinite Graph、GraphDB
数据模型	图结构
典型应用	专门用于处理具有高度相互关联关系的数据，比较适合于社交网络、模型识别、依赖分析、推荐系统路径寻路等问题
优点	灵活性高，支持复杂的图算法，可用于构建复杂的关系图谱
缺点	复杂性高，只能支持一定的数据规模
使用者	Adobe(Noe4j)、Cisco（Neo4J）、T-Mobile（Neo4J）

九、NoSQL的三大基石

C（Consistency）：一致性
A：（Availability）：可用性
P：（Tolerance of Network Partition）：分区容忍性
但是一个分布式系统不可能同时满足一致性、可用性、分区容忍性这三个需求，最多只能同时满足其中两个，正所谓“鱼和熊掌不可兼得”！

不同的产品在CAP的理论下的不同设计原则：

NoSQL 分布式数据库分布式数据库和nosql_Hadoop_03

十、HBase分布式数据库

今天着重学习Hbase分布式的架构和使用原理！

1.HBase访问的接口：

类型	特点	场合
Native Java API	最常规和高效的访问方式	适合Hadoop MapReduce作业并行批处理HBase表数据
HBase Shell	HBase的命令行工具，最简单的接口	适合HBase管理使用
Thrift Gateway	利用Thrift序列化技术，支持C++、PHP、Python等多种语言	适合其他异构系统在线访问HBase表数据
REST Gateway	解除了语言限制	支持REST风格的Http API访问HBase
Pig	使用Pig Latin流式编程语言来处理HBase中的数据	适合做数据统计
Hive	简单	当需要以类似SQL语言方式访问HBase的时候

2.HBase数据模型

Hbase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳，每个值是一个未经解释的字符串，没有数据类型
用户在表中存储数据，每一行都有一个可排序的行键和任意多的列
表在水平方向由一个或者多个列族组成，一个列族中可以包含任意多个列，同一个列族里面的数据存储在一起
列族支持动态扩展，可以很轻松地添加一个列，无需预先定义列的数量以及类型，所有列均以字符串形式存储，用户需要自己进行数据类型的转换
HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留（这是和HDFS只允许追加不允许修改的特性相关的****这个是what？）
表： HBase采用表来组织数据，表由行和列组成，列划分为若干个列族
行：每个HBase表都由若干行组成，每个行由行键(row key)来标识。
列族： 一个HBase表被分组成许多“列族”（Column Family）的集合，它是基本的访问控制单元
列限定符： 列族里的数据通过列限定符（或列）来定位
时间戳： 每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引
**单元格：**在HBase表中，通过行、列族和列限定符确定一个“单元格”（cell），单元格中存储的数据没有数据类型，总被视为字节数组byte[]
HBase需要根据行键、列族、列限定符和时间戳来确定一个单元格
可以视为一个“四位坐标”，即 [行键，列族，列限定符，时间戳]

NoSQL 分布式数据库分布式数据库和nosql_NoSQL_04

3.HBase的概念视图

NoSQL 分布式数据库分布式数据库和nosql_分布式数据库_05

4.HBase的物理视图

NoSQL 分布式数据库分布式数据库和nosql_分布式数据库_06

NoSQL 分布式数据库分布式数据库和nosql_NoSQL 分布式数据库_07

NoSQL 分布式数据库分布式数据库和nosql_Hadoop_08

传统数据库是以行来存储的，HBase是以列来存储的。

传统的行存储就是为了可以规范化列的数量，方便于关系的建立，以及满足实体完整性、参照完整性、用户个性完整性；

HBase使用列来存储，那么是为了使数据库可以容易被扩展，方便存储海量的数据，但是无法分辨数据类型和难以建立数据与数据之间的关系；

我想：为什么不可以做一个三维的数据库呢？用两维来规定数据的类型和数据与数据之间的关系，用剩下的一维来进行扩展！这样的思想会不会可以既获得传统数据库的关系优点，又可以发挥可扩展的高性能优点呢？

5.HBase的系统架构

NoSQL 分布式数据库分布式数据库和nosql_NoSQL_09

HBase的底层其实还是HDFS，所以HDFS是HBase的基础呀！

1. 客户端：

客户端包含访问HBase的接口，同时在缓存中维护着已经访问过的Region位置信息，用来加快后序数据访问过程

2. Zookeeper服务器

Zookeeper可以帮助选举出一个Master作为集群的总管，并保证在任何时候总有唯一一个Master在运行，这就避免了Master的“单点失效”问题

NoSQL 分布式数据库分布式数据库和nosql_分布式数据库_10

3. Master主服务器
主服务器HMaster主要负责表和HRegion的管理工作：

管理用户对表的增加、删除、修改、查询等操作
实现不同HRegion服务器之间的负载均衡
在HRegion分裂或合并后，负责重新调整HRegion的分布
对发生故障失效的HRegion服务器上的HRegion进行迁移，不会导致单点故障就导致整个集群宕机

4. HRegion服务器

HRegion服务器是HBase中最核心的模块，负责维护分配给自己的Region，并响应用户的读写请求

HBase中Region服务器的工作原理

用户读写数据过程
缓存的刷新
StoreFile的合并

下图是Region服务器向HDFS文件系统中读写数据

NoSQL 分布式数据库分布式数据库和nosql_NoSQL_11

开始Region只有一个，后来不断分裂
Region拆分操作非常快，接近于瞬间，因为拆分之后的Region读取的仍然是原存储文件，直到“合并”过程把存储文件异步地写到独立的文件之后，才会读取新文件

NoSQL 分布式数据库分布式数据库和nosql_HBase_12

NoSQL 分布式数据库分布式数据库和nosql_分布式数据库_13

6.HBase表和Regsion

每个Regsion的默认大小是100M到200M
每个Regsion的最佳大小取决于单台服务器的有效处理能力
目前Regsion最佳大小建议1GB-2GB
同一个Region不会被分拆到多个Regsion服务器，每个Regsion服务器存储10-1000个Regsion

NoSQL 分布式数据库分布式数据库和nosql_HBase_14

7. HBase中Region的定位

元数据表，又名.META.表，存储了Region和Region服务器的映射关系
当HBase表很大时， .META. 表也会被分裂成多个Regsion
根数据表，又名为root表，记录着所有元数据的具体位置
root表只有唯一一个Region，名字是在程序中被写死的，无法修改
Zookeeper文件记录了root表的位置

NoSQL 分布式数据库分布式数据库和nosql_HBase_15

哈哈哈！感觉很像Linux的目录结构，每个用户对应相应的用户文件目录
HBase的三层结构中各层次的名称和作用

层次	名称	作用
第一层	Zookeeper文件	记录了root表的位置信息
第二层	root表	记录了.META. 表的Region位置信息 root表只能有一个Region。通过root表，就可以访问.META表中的数据
第三层	.META.表	记录了用户数据表的Region位置信息，.META.表可以有多个Region，保存了HBase中所有数据表的Region位置信息

客户端访问数据时的“三级寻址”

为了加速寻址，客户端会缓存位置信息，同时，需要解决缓存失效问题
寻址过程中客户端只需要询问Zookeeper服务器，不需要连接Master服务器

第一篇超过一万字的博客，小小庆祝一下下，嘻嘻！开心！以后会更加努力的学习丫！

当你的才华还撑不起你的野心的时候，
你就应该静下心来学习；
当你的能力还驾驭不了你的目标时，
就应该沉下心来，历练.

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Java espon驱动打印 java驱动

下一篇：Android Behavior滑动抖动 android滑动选择

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯