一、什么是MongoDB
MongoDB
是C++
编写的,是一个基于分布式文件存储的开源数据库系统。- 在高负载的情况下,添加更多的节点,可以保证服务器性能。
MongoDB
旨在为Web
应用提供可扩展的高性能数据存储解决方案。MongoDB
将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB
文档类似于Json
对象。字段值可以包含其他文档,数组及文档数组。
二、 MongoDB
的优缺点
优点:
- 文档结构的存储方式,能够更便捷地获取数据
- 内置
GridFS
,支持大容量存储GridFS
是一个出色的分布式文件系统,可以支持海量的数据存储。内置了GridFS
的MongoDB
,能够满足大数据集的快速范围查询。 - 海量数据下,性能优越
- 在使用场合下,千万级别的文档对象,近 10G 的数据,对有索引的 ID 的查询不比
MySQL
慢,而对非索引字段的查询,则是全面胜出。MySQL
实际无法胜任大数据下任意字段的查询,而MongoDB
的查询性能令人惊讶。写入性能同样很令人满意,同样写入百万级别的数据,MongoDB
比我以前使用过的CouchDB
要快得多,基本 10 分钟以下可以解决。观察过程中,MongoDB
远算不上 CPU 杀手。
- 动态查询
- 全索引支持,扩展到内部对象和内嵌数组
- 索引通常能够极大地提高查询的效率,如果没有索引,
MongoDB
在读取数据时必须扫描集合中的每个文件并选取那些符合查询条件的记录 - 这种扫描全集合的查询效率是非常低的。特别是在处理大量的数据时,查询可以花费几十秒甚至几分钟,这对网站的性能是致命的。
- 索引是特殊的数据结构,索引存储在一个易于遍历读取的数据集合中,索引是对数据库表中的一列或多列的值进行排序的一种结构。
- 查询记录分析
- 快速,就地更新
- 高效存储二进制大对象(比如照片和视频)
- 复制(复制集)和支持自动故障恢复
- 内置
Auto-Sharding
自动分片支持云级扩展性,分片简单
提供基于Range
的Auto-Sharding
机制:
- 一个
collection
可按照记录的范围,分为若干个段,切分到不同的Shard
上。 -
Shards
可以和复制结合,配合Replica sets
能够实现Sharing+fail-over
,不同的Shard
之间可以负载均衡。 - 查询时对客户端是透明的。客户端执行查询,统计,
MapReduce
等操作,这些会被MongoDB
自动路由到后端的数据节点。 - 这让我们关注于自己的业务,适当的时候可以无痛的升级。
MongoDB
的Sharding
设计能力最大支持约20 PetaBytes
,足以支撑一般应用。(1PB=1024TB=2^50
字节) - 这可以保证
MongoDB
运行在便宜的PC
服务器集群上。PC
集群扩充起来非常方便且成本很低,避免了Sharding
操作的复杂性和成本。
MapReduce
支持复杂聚合
-
MongoDB
中聚合(aggregate
)主要用于处理数据(统计平均值、求和等),并返回计算后的数据结果。有点类似于SQL
语句中的count(*)
。
- 商业支持,培训和咨询
缺点:
- 不支持事务操作
- 所有事务要求严格的系统(银行系统)肯定不能用它。
MongoDB
占用空间过大
- 空间的预分配:为避免形成过多的硬盘碎片,
MongoDB
每次空间不足时都会申请生成一大块的硬盘空间,而且申请的量从64M、128M、256M
那样成指数递增,直到 2G 为单个文件的最大体积。随着数据量的增加,你可以在其数据目录里看到这些整块生成容量不断递增的文件。 - 字段名所占用的空间: 为了保持每个记录内的结构信息用于查询,
MongoDB
需要把每个字段的key-value
都以Bson
的形式存储,如果value
域相对于key
域并不大,比如存放数值型的数据,则数据的overhead
是最大的。一种减少空间占用的方法是把字段名尽量取得短一点,这样占用空间就小了,但这要求在易读性与空间占用上作为权衡了。 - 删除记录不释放空间:为避免记录删除后的数据大规模挪动,原记录空间不删除,只标记已删除即可,以后还可以重复利用。
- 可以定期运行
db.repairDatabase()
来整理记录,但这个过程会比较缓慢。
- 无法进行关联操作,不适用于关系多的数据
-
MongoDB
没有如MySQL
那样成熟的维护工具,这对于开发和运营都是个值得注意的地方。 - 复杂聚合操作通过
MapReduce
创建,速度慢 - 模式自由,自由灵活的文件存储格式带来的数据错
-
MongoDB
在删除记录后不会在文件系统回收空间,除非删掉数据库。但是空间没有被浪费。