一、什么是MongoDB

MongoDB是C++编写的,是一个基于分布式文件存储的开源数据库系统。
在高负载的情况下,添加更多的节点,可以保证服务器性能。
MongoDB旨在为Web应用提供可扩展的高性能数据存储解决方案。
MongoDB将数据存储为一个文档,数据结构由键值(key=>value)对组成。
MongoDB文档类似于Json对象。字段值可以包含其他文档,数组及文档数组。

二、 MongoDB 的优缺点

优点:

  • 文档结构的存储方式,能够更便捷地获取数据
  • 内置GridFS,支持大容量存储
  • GridFS是一个出色的分布式文件系统,可以支持海量的数据存储。内置了GridFS 的MongoDB,能够满足大数据集的快速范围查询。

海量数据下,性能优越

  • 在使用场合下,千万级别的文档对象,近 10G 的数据,对有索引的 ID 的查询不比MySQL慢,而对非索引字段的查询,则是全面胜出。MySQL实际无法胜任大数据下任意字段的查询,而MongoDB的查询性能令人惊讶。写入性能同样很令人满意,同样写入百万级别的数据,MongoDB比我以前使用过的CouchDB要快得多,基本 10 分钟以下可以解决。观察过程中,MongoDB远算不上 CPU 杀手。

动态查询

  • 全索引支持,扩展到内部对象和内嵌数组
  • 索引通常能够极大地提高查询的效率,如果没有索引,MongoDB在读取数据时必须扫描集合中的每个文件并选取那些符合查询条件的记录
  • 这种扫描全集合的查询效率是非常低的。特别是在处理大量的数据时,查询可以花费几十秒甚至几分钟,这对网站的性能是致命的。
  • 索引是特殊的数据结构,索引存储在一个易于遍历读取的数据集合中,索引是对数据库表中的一列或多列的值进行排序的一种结构。

查询记录分析

  • 快速,就地更新
  • 高效存储二进制大对象(比如照片和视频)
  • 复制(复制集)和支持自动故障恢复
  • 内置Auto-Sharding自动分片支持云级扩展性,分片简单
  • 提供基于Range的Auto-Sharding机制:
  • 一个collection可按照记录的范围,分为若干个段,切分到不同的Shard上。
  • Shards可以和复制结合,配合Replica sets能够实现Sharing+fail-over,不同的Shard之间可以负载均衡。
    查询时对客户端是透明的。客户端执行查询,统计,MapReduce等操作,这些会被MongoDB自动路由到后端的数据节点。
    这让我们关注于自己的业务,适当的时候可以无痛的升级。MongoDB的Sharding设计能力最大支持约20 PetaBytes,足以支撑一般应用。(1PB=1024TB=2^50 字节)
  • 这可以保证MongoDB运行在便宜的PC服务器集群上。PC集群扩充起来非常方便且成本很低,避免了Sharding操作的复杂性和成本。

MapReduce支持复杂聚合

  • MongoDB中聚合(aggregate)主要用于处理数据(统计平均值、求和等),并返回计算后的数据结果。有点类似于SQL语句中的count(*)。
  • 商业支持,培训和咨询

缺点:

  • 不支持事务操作
  • 所有事务要求严格的系统(银行系统)肯定不能用它。

MongoDB占用空间过大

  1. 空间的预分配:为避免形成过多的硬盘碎片,MongoDB每次空间不足时都会申请生成一大块的硬盘空间,而且申请的量从64M、128M、256M那样成指数递增,直到 2G 为单个文件的最大体积。随着数据量的增加,你可以在其数据目录里看到这些整块生成容量不断递增的文件。
    字段名所占用的空间: 为了保持每个记录内的结构信息用于查询,MongoDB需要把每个字段的key-value都以Bson的形式存储,如果value域相对于key域并不大,比如存放数值型的数据,则数据的overhead是最大的。一种减少空间占用的方法是把字段名尽量取得短一点,这样占用空间就小了,但这要求在易读性与空间占用上作为权衡了。
    删除记录不释放空间:为避免记录删除后的数据大规模挪动,原记录空间不删除,只标记已删除即可,以后还可以重复利用。
    可以定期运行db.repairDatabase()来整理记录,但这个过程会比较缓慢。
  2. 无法进行关联操作,不适用于关系多的数据
  3. MongoDB没有如MySQL那样成熟的维护工具,这对于开发和运营都是个值得注意的地方。
    复杂聚合操作通过MapReduce创建,速度慢
    模式自由,自由灵活的文件存储格式带来的数据错
  4. MongoDB在删除记录后不会在文件系统回收空间,除非删掉数据库。但是空间没有被浪费。

MongoDB与Redis比较:

  • MongoDB文件存储是Bson格式,类似Json,或自定义的二进制格式。MongoDB与Redis性能都很依赖内存的大小,MongoDB有丰富的数据表达、索引;最类似于关系数据库,支持丰富的查询语言,Redis数据丰富,较少的 IO,这方面MongoDB优势明显。
  • MongoDB不支持事务,靠客户端自身保证,Redis支持事务,比较弱,仅能保证事务中的操作按顺序执行,这方面Redis优于MongoDB。
  • MongoDB对海量数据的访问效率提升,Redis较小数据量的性能及运算,这方面MongoDB优于Redis。
  • MongoDB有MapReduce功能,提供数据分析,Redis没有,这方面MongoDB优于Redis