一、MongoDB是什么?
MongoDB是一个基于分布式文件存储的数据库。是一个介于关系数据库和非关系数据库之间的产品,是高性能、易部署、易使用,存储数据非常方便的DB。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。
Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
一个MongoDB 实例可以包含一组DataBase (数据库),一个DataBase 可以包含一组Collection(集合),一个集合可以包含一组Document(文档)。一个Document包含一组field(字段),每一个字段都是一个key/value pair。
- key: 必须为字符串类型;
- value:可以包含基本类型(string、int等)、document、 数组类型。
二、MongoDB功能与特点
1、面向集合存储,容易存储对象类型的数据。数据被分组存储在集合中,一个集合中可以存储无限多的文档;
2、模式自由,采用无模式结构存储。集合中存储的数据是无模式的文档,采用无模式存储数据是集合区别于RDBMS (关系数据库管理系统)中的表的一个重要特征;
3、支持完全索引。可以在任意属性上建立索引,包含内部对象。MongoDB的索引和RDBMS 的索引基本一样,可以在指定属性、内部对象上创建索引以提高查询的速度。除此之外,MongoDB 还提供创建基于地理空间的索引的能力;
4、支持查询。MongoDB 支持丰富的查询操作,MongoDB 几乎支持SQL中的大部分查询;
5、强大的聚合工具。除丰富的查询功能外,还提供强大的聚合工具,如count、group 等,支持使用MapReduce 完成复杂的聚合任务;
6、支持复制和数据恢复。MongoDB 支持主从复制机制,可以实现数据备份、故障恢复、读扩展等功能。基于副本集的复制机制提供了自动故障恢复的功能,确保了集群数据不会丢失;
7、使用高效的二进制数据存储,包括大型对象(如视频)。使用二进制格式存储,可以保存任何类型的数据对象;
8、自动处理分片,以支持云计算层次的扩展。MongoDB 支持集群自动切分数据,对数据进行分片可以使集群存储更多的数据,实现更大的负载,也能保证存储的负载均衡;
9、支持Perl、PHP、Java、C#、JavaScript、Ruby、C 和C++语言的驱动程序,MongoDB 提供了当前所有主流开发语言的数据库驱动包,开发人员使用任何一种主流开发语言都可以轻松编程,实现访问MongoDB 数据库;
10、文件存储格式为BSON(JSON 的一种扩展);
11、可以通过网络访问。可以通过网络远程访问MongoDB 数据库。
三、基本概念
面向集合(Collection-Oriented)
数据被分组存储在数据集中,被称为一个集合(Collection)。每个集合在数据库中都有一个唯一的标识名,并且可以包含无限数目的文档。集合的概念类似关系型数据库(RDBMS)里的表(table),不同的是它不需要定义任何模式(schema)。
模式自由(schema-free)
对于存储在mongodb数据库中的文件,不需要知道它的任何结构定义。
BSON
BSON是一种计算机数据交换格式,主要被用作MongoDB数据库中的数据存储和网络传输格式。BSON之名缘于JSON,含义为Binary JSON(二进制JSON)。
文档
文档是 MongoDB 中数据的基本单位,类似于关系数据库中的行。多个键及其关联的值有序地放在一起就构成了文档。文档中的键/值对是有序的。
文档中的值不仅可以是双引号中的字符串,也可以是其他的数据类型,例如,整型、布尔型等,也可以是另外一个文档,即文档可以嵌套。文档中的键类型只能是字符串。
集合
集合就是一组文档,类似于关系数据库中的表。集合是无模式的,集合中的文档可以是各式各样的。
数据库
MongoDB 中多个文档组成集合,多个集合组成数据库。
一个MongoDB 实例可以承载多个数据库。它们之间可以看作相互独立,每个数据库都有独立的权限控制。在磁盘上,不同的数据库存放在不同的文件中。
MongoDB 中存在以下系统数据库。
- Admin 数据库:权限数据库,如果创建用户的时候将该用户添加到admin 数据库中,那么该用户就自动继承了所有数据库的权限;
- Local 数据库:数据库永远不会被复制,可以用来存储本地单台服务器的任意集合;
- Config 数据库:当MongoDB 使用分片模式时,config 数据库在内部使用,用于保存分片的信息。
三、使用场景
适宜场景
1、网站实时数据处理。适合实时的插入、更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性;
2、缓存。由于性能很高,它适合作为信息基础设施的缓存层;
3、高伸缩性的场景。适合由数十或数百台服务器组成的数据库,路线图中已经包含对MapReduce引擎的内置支持。
不适用的场景
1、要求高度事务性的系统;
2、传统的商业智能应用;
3、复杂的跨文档(表)级联查询。
四、常见疑问
1、既然集合中可以存放任何类型的文档,那么为什么还需要使用多个集合?
因为所有文档都放在同一个集合中,对于开发者或者管理员,都很难对集合进行管理,而且在这种情形下,对集合的查询等操作效率不高。
所以在实际使用中,往往将文档分类存放在不同的集合中,例如,对于网站的日志记录,可以根据日志的级别进行存储,Info级别日志存放在Info 集合中,Debug 级别日志存放在Debug 集合中,既方便了管理,也提高了查询性能。
欢迎相互交流相关问题呀