NoSQLBooste中文设置 nosql入门

转载

mob6454cc6441b6 2023-10-09 00:16:37

文章标签 NoSQLBooste中文设置 NoSQL SQL SQL Server 腾讯 文章分类 NoSQL 数据库

NoSQL入门简介

一NoSQL来源与定义

NoSQL一词首先是Carlo Strozzi在1998年提出来的，指的是他开发的一个没有SQL功能，轻量级的，开源的关系型数据库。注意，这个定义跟我们现在对NoSQL的定义有很大的区别，它确确实实字如其名，指的就是“没有SQL”的数据库。不过，NoSQL的发展慢慢偏离了初衷，Carlo Strozzi也发觉，其实我们要的不是”no SQL”，而应该是”no relational”，也就是我们现在常说的非关系型数据库了。

二，为什么要使用NoSQL

1、对数据库高并发读写的需求

web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息，所以基本上无法使用动态页面静态化技术，因此数据库并发负载非常高，往往要达到每秒上万次读写请求。关系数据库应付上万次SQL查询还勉强顶得住，但是应付上万次SQL写数据请求，硬盘IO就已经无法承受了。

2、对海量数据的高效率存储和访问的需求
类似Facebook，twitter，Friendfeed这样的SNS网站，每天用户产生海量的用户动态，以Friendfeed为例，一个月就达到了2.5亿条用户动态，对于关系数据库来说，在一张2.5亿条记录的表里面进行SQL查询，效率是极其低下乃至不可忍受的。再例如大型web网站的用户登录系统，例如腾讯，盛大，动辄数以亿计的帐号，关系数据库也很难应付。

3、对数据库的高可扩展性和高可用性的需求
在基于web的架构当中，数据库是最难进行横向扩展的，当一个应用系统的用户量和访问量与日俱增的时候，你的数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说，对数据库系统进行升级和扩展是非常痛苦的事情，往往需要停机维护和数据迁移，如何才能实现不断线，动态迁移数据，对于大型在线网站来说，将是非常重要的。

正式因为关系型数据库有了以上种种的缺点，因此才有了使用NoSQL的必要。NoSQL使用KeyValue进行存储，同时，大多数的NoSQL数据库使用内存来保存数据，然后经过一段时间后将数据同步到磁盘中，由于使用内存进行读写，很好地满足了应对高并发读写的要求。其次， NoSQL数据库提供了根据key值进行横向分表，已经主从数据库互备，来实现在线系统的数据的动态迁移，服务器在线扩展和数据的高可用性。

三，一些NoSQL相关的重要的理论。

1分布式经典的CAP理论

在分布式领域，有个重要的CAP理论，是说Consistency（一致性）， Availability（可用性）， partition tolerance（分布）三部分系统，在系统中，只能满足两个，而不可能同时实现三个。系统架构师不要浪费是时间来实现满足三个条件的完美系统。

在传统的关系型数据库如mysql中，更多的保证了事务的一致性，但是在满足高可用性和扩展性上存在这一定的缺陷。而NoSQL的设计者，从一开始，就非常了解这个CAP的理论。NoSQL，主要服务的场景是大并发海量的数据的存储，但是存储的一致性并没有如银行类系统那么高的要求，因此通过放弃对强一致性的追求，从而达到更高的可用性，扩展性，快速响应调用的需求。并通过鸽巢原理来达到最终一致性。

2鸽巢原理和最终一致性

在一个包含多个读写进程对数据库操作的系统中。

强一致性是指：A写入的数据x， ABC三个进程读到的都是x

弱一致性是指：A写入数据x，存在着一段时间，ABC读到不是x, 直到最后同步

最终一致性：是一种特殊的弱一致性，它保证了系统在时间段内没有新的更新，所有的返回都得到了最后更新的值。

鸽巢原理：如果n+1个物体被放进n个盒子，那么至少有一个盒子包含两个或更多的物体。

根据鸽巢原理：数据库的副本数遵循（N,R,W）的规则， N个副本，如果R个读取的值一致则表示读取成功，如果W个写入成功，则表示写入成功，不必要求N个都全部写入成功。只要R+W>N，数据的最终一致性就可以得到保障。

3一致性哈希

一致性哈希提出必须满足的4个适应条件

1平衡性：哈希的结果可以尽可能分布到所有的空间中，使数据空间得到充分利用。

2单调性：如果加入新的节点之后，哈希算法不会将原来映射到旧节点的数据映射到新的节点上

3分散性，不应该有相同的数据，被映射到不同的节点上，从而出现数据冲突。