MongoDB数据文件内部的组织结构是什么样的。随后10gen的工程师Jared Rosoff出来做了简短的回答。

每一个数据库都有自己独立的文件。如果你开启了directoryperdb选项,那你每个库的文件会单独放在一个文件夹里。

数据库文件在内部会被切分成单个的块,每个块只保存一个名字空间的数据。在MongoDB中,名字空间用于区分不同的存储类别。比如每个collection有一个独立的名字空间,每个索引也有自己的名字空间。

在一个块中,会保存多条记录,每条记录是BSON格式的,记录与记录之间通过双向链表进行连接。

索引数据也存在数据文件中,不过索引是被组织成B Tree结构,而不是双向链表。

对每个数据库,有一个命名空间文件,用于保存每个名字空间对应的元数据。我们通过查询这些元数据来找到对应的名字空间的存储块位置。

如果你开启了jorunaling日志,那么还会有一些文件存储着你所有的操作记录。

下面图片摘自10gen工程师Mathias Stearn在MongoSV2011大会上的发言稿,手绘的数据文件结构。

1.每个数据库有相应的数据文件和命名空间文件


data路径 mongodb 设置 mongodb 数据文件_数据

2.数据文件从16MB开始,新的数据文件比上一个文件大一倍,最大为2GB


data路径 mongodb 设置 mongodb 数据文件_数据文件_02

3.文件使用MMAP进行内存映射,会将所有数据文件映射到内存中,但是只是虚拟内存,只有访问到这块数据时才会交换到物理内存。


data路径 mongodb 设置 mongodb 数据文件_data路径 mongodb 设置_03


data路径 mongodb 设置 mongodb 数据文件_元数据_04

4.MongoDB的数据文件映射到内存表中的位置


data路径 mongodb 设置 mongodb 数据文件_元数据_05


data路径 mongodb 设置 mongodb 数据文件_数据文件_06

5.使用32位机器的话,内存地址最大可以标识4GB内存


data路径 mongodb 设置 mongodb 数据文件_数据文件_07


data路径 mongodb 设置 mongodb 数据文件_数据文件_08

6.但是在32位机器上,4GB内存会有1GB被内核战用,大约0.5GB会用于mongod进程的stack空间,只剩下大约2.5GB可用于映射数据文件。


data路径 mongodb 设置 mongodb 数据文件_数据文件_09


data路径 mongodb 设置 mongodb 数据文件_数据文件_10


data路径 mongodb 设置 mongodb 数据文件_数据_11

7.在64位机器上则最多可以表示128TB的空间


data路径 mongodb 设置 mongodb 数据文件_数据_12


data路径 mongodb 设置 mongodb 数据文件_元数据_13


data路径 mongodb 设置 mongodb 数据文件_元数据_14

8.每个数据文件会被分成一个一个的数据块,块与块之间用双向链表连接


data路径 mongodb 设置 mongodb 数据文件_数据文件_15


data路径 mongodb 设置 mongodb 数据文件_数据文件_16

9.在名字空间文件中,保存的是一个hash table,保存了每个名字空间的存储信息元数据,包括其大小,块数,第一块位置,最后一块位置,被删除的块的链表以及索引信息


data路径 mongodb 设置 mongodb 数据文件_数据文件_17


data路径 mongodb 设置 mongodb 数据文件_data路径 mongodb 设置_18

10.这些位置通过DiskLoc数据结构进行存储,存储了数据文件编号和块在文件中的位置


data路径 mongodb 设置 mongodb 数据文件_数据文件_19


data路径 mongodb 设置 mongodb 数据文件_数据_20


data路径 mongodb 设置 mongodb 数据文件_data路径 mongodb 设置_21


data路径 mongodb 设置 mongodb 数据文件_data路径 mongodb 设置_22

11.对每一个块来说,其头部包含了一些块的元数据,比如自己的位置,上一个和下一个块的位置以及块中第一条和最后一条记录的位置指针。剩下的部分用于存储具体的数据,具体数据之间也是通过双向链接来进行连接。


data路径 mongodb 设置 mongodb 数据文件_数据_23


data路径 mongodb 设置 mongodb 数据文件_数据_24


data路径 mongodb 设置 mongodb 数据文件_数据_25

12.下面是B Tree的存储结构和工作原理


data路径 mongodb 设置 mongodb 数据文件_data路径 mongodb 设置_26


data路径 mongodb 设置 mongodb 数据文件_数据_27


data路径 mongodb 设置 mongodb 数据文件_data路径 mongodb 设置_28


data路径 mongodb 设置 mongodb 数据文件_data路径 mongodb 设置_29


data路径 mongodb 设置 mongodb 数据文件_元数据_30


data路径 mongodb 设置 mongodb 数据文件_数据文件_31


data路径 mongodb 设置 mongodb 数据文件_数据_32


data路径 mongodb 设置 mongodb 数据文件_数据_33


data路径 mongodb 设置 mongodb 数据文件_元数据_34

最后说一下,mongodb的index,按B tree 组织的。叶子节点存的是_id的值和地址。