mongodb 里的  GridFS 是个好东西。有了GridFS我们就可以把文件存储到 mongodb里面。有人疑问,为啥要把文件存 mongodb里呢?直接放个目录里,然后 URL直接访问不就完了,比如 [php]www.xxoo.com/xo.jpg[/php]  。 的确在站比较小得时候,附件不多的时候,当然这样处理很好。但是当 附件数量海里去了~~ 那这样存就蛋疼了, 备份是个问题,硬盘IO瓶颈那会也会凸显出来。问题接踵而来。那会,就需要分布式文件存储了。    利用 GridFS 存储文件, 再利用 mongodb 的分片(sharding) 就可以做到海量存储了。 当然本文只是一个知识扩展~ 生产使用此方案出问题,与本人无关~~别找我。

环境:系统是  FreeBSD 8.2-RELEASE。   

首先开始安装  mongodb (mongodb-src-r1.8.3.) : 
  
1. vm205# cd /usr/ports/databases/mongodb/
2. vm205# make install clean


复制代码



等吧~~。一会就完了。完了还要配置下,做FB的 这个懂的    vi   /etc/rc.conf:


1. mongod_enable="YES"   #开机启动
2. mongod_dbpath="/data/mongodb"  # DB存储目录


复制代码


完了,记得启动mongodb 哦:

1. /usr/local/etc/rc.d/mongod start


复制代码



因为我们是用 nginx  的 nginx-gridfs 模块来访问 mongodb,所以安装 nginx (nginx-1.0.8)


1. vm205# cd /usr/ports/www/nginx
2. vm205# make install clean
3.


复制代码



记住, 在弹出选择模块的步骤中,要记得选上:nginx-gridfs  模块。否则~~ nginx 和  mongodb 木啥关系。





又要再等等~~ 喝杯咖啡吧。。装完了也要配置下了:  vi   /etc/rc.conf


1. nginx_enable="YES"  #开机启动


复制代码


启动: 
  
1. /usr/local/etc/rc.d/nginx start

复制代码





当  nginx 和 mongodb 都装完了以后。开始进行我们的分布式文件存储之旅吧,首先,写个demo ,上传文件时候把文件存储到 mongodb里。



写个上传表单:demo.php  

1. <form method="POST" enctype="multipart/form-data" action="gridfs.php">
2.      上传文件: <input type="file" name="pic"/>
3.      <input type="submit"/>
4. </form>

复制代码




接受表单把上传的文件存储到 mongodb : gridfs.php


1. <?php
2.         $con = new Mongo("mongodb://192.168.1.205"); // Connect to Mongo Server
3.         $db = $con->selectDB("xxoo"); // Connect to Database
4.         $grid = $db->getGridFS();
5.         $grid->storeUpload("pic", 'demo.jpg');
6. 
7. ?>


复制代码




。运行程序,提交表单,然后去mongo 看看 存上没。


1. vm205# mongo  # 进入 mongo 
2. MongoDB shell version: 1.8.3
3. connecting to: test
4. > show dbs   # 显示所有数据库
5. admin   (empty)
6. local   (empty)
7. niniang 0.0625GB
8. xxoo    0.0625GB  #  看到 xxoo了吧~~ 再看下刚上面的代码。在 selectDB的时候,我们选择的就是xxoo 数据库,存在了证明文件存储上了。
9. > use xxoo # 进入xxoo数据库
10. switched to db xxoo
11. > show collections  # 显示数据库里的集合(你就当时表吧)
12. fs.chunks
13. fs.files
14. system.indexes
15.


复制代码


我们先看下  xxoo 集合里自动创建的三个集合。


fs.chunks     块集合, gridfs 会把大文件分成一小块一小块的来进行存储,所以可以存储大文件。



fs.files    我们看下这个文件里面是啥内容。


1. > db.fs.files.find()
2. { "_id" : ObjectId("4eb53994d4a9e19809000001"), "filename" : "demo.jpg", "uploadDate" : ISODate("2011-11-05T13:26:44Z"), "length" : 373044, "chunkSize" : 262144, "md5" : "991a2475cc9fe9a414148b45519a6c40" }
3.


复制代码




里面存储着我们刚上传的文件的信息,比如 filename  文件名。   length 文件大小   chunkSize 分块大小。  文件就这样给存储到 mongodb了。





system.indexes   集合索引文件。  索引懂吧~不懂 先学 mysql  呵呵。



好的。到这里。 分布式文件存储,就完成了一半了~~。 这半就是文件存储。 那分布式呢? 接下来我们就分布式吧~~ 淡定~这个分布式其实还是比较简单的。


为了分布式,我们准备了 4台 Freebsd 服务器。使用两台服务器,多个进程方式也是可以实现,但不够4台服务器清晰点。我们来搭建一个基础的分布式吧



1、配置mongod 服务器   : 192.168.1.202       把"mongos路由服务器" 的配置信息存储到硬盘。


2、mongos 路由服务器   : 192.168.1.203       把一些存储节点的路由信息存储到内存


3、mongod 存储节点      : 192.168.1.204       真是的存储节点,里面存储着上传的图片呀,文件等。可以拓展N台~~ 分布式嘛。。具体多少台~我也没测试过。。。


4、mongod 存储节点      : 192.168.1.205




首先配置mongod服务器。 192.168.1.202:

1. /usr/local/bin/mongod --configsvr --dbpath=/data/configsvr  --logpath=/data/configsvr/mongo.log --port  27019 --logappend --fork

复制代码



OK。确定启动成功:   ps  aux  | grep mongo     确定了木问题了继续。


配置  mongos 路由服务器。192.168.1.203:

1. /usr/local/bin/mongos --configdb  192.168.1.202:27019   --logpath=/data/configdb/mongo.log  --port 27017 --logappend --fork

复制代码



在确定启动正常。再继续


配置 mongod 存储节点了: 192.168.1.204和 192.168.1.205,分别在存储节点上运行以下shell


1. /usr/local/bin/mongod --shardsvr --dbpath=/data/shardsvr --logpath=/data/shardsvr  --port 27017  --logappend  --fork


复制代码



好了 到这里,基本所有服务器都配置完了。接下来。我们就要添加" mongos 路由信息了"。 主要是告诉 mongos 。 存储节点分别是哪些服务器? 对那个数据库启动分片?以集合里的那个key 进行分片。


添加存储节点到  mongos 路由服务上:

1. db.runCommand({addshard:"192.168.1.204:27017"})
2. db.runcOMMAND({addshard:"192.168.1.205:27017"})

复制代码




告诉, mongos 路由节点,对那些库和集合进行分片存储。


1. db.runCommand({"enablesharding" : "xxoo"})
2. db.runCommand({"shardcollection" : "xxoo.fs.chunks","key" : {"_id" : 1}})
3. db.runCommand({"shardcollection" : "xxoo.fs.files","key" : {"_id" : 1}})


复制代码



好了 分布式环境搭建完了。 那我们回头看下代码方面,只需要修改下访问地址,所有的请求都应该通过  "mongos 路由服务器" 这样才能自动帮你分片嘛~~ 


1. <?php
2.         $con = new Mongo("mongodb://192.168.1.203"); // 连接到  mongos 路由服务器,让它帮我们分片
3.         $db = $con->selectDB("xxoo"); // Connect to Database
4.         $grid = $db->getGridFS();
5.         $grid->storeUpload("pic", 'demo.jpg');
6. 
7. ?>


复制代码



文件上传、分布式存储。都实现了。  nginx 开始上场了。 我们用 nginx 来做静态资源的服务器,前面我们装得 nginx-gridfs  模块,里面自带了访问 mongodb  的驱动。那是相当方便呀。看下 nginx 配置:


1. server {
2.         listen       8088;
3.         server_name localhost;
4. 
5. #重点在这里
6.         location / {
7.             gridfs xxoo field=filename type=string;
8.             mongo 192.168.1.203:27017;
9.         }
10. 
11.         # redirect server error pages to the static page /50x.html
12.         #
13.         error_page   500 502 503 504  /50x.html;
14.                  location = /50x.html {
15.             root   html;
16.         }
17. 
18.         # deny access to .htaccess files, if Apache's document root
19.         # concurs with nginx's one
20.         #
21.         location ~ /WEB-INF/ {
22.             deny  all;
23.         }
24.     }


复制代码



重点理解这些:


gridfs  xxoo   field=filename   type=string;


gridfs  [数据库]  field=[以那个字段进行查询]  type=[字段的类型]。  一般我们都是以  存储在mongodb 里的文件名为条件去查询,进而来打开要显示的文件。



mongo 192.168.1.203:27017;


要连接的 mongos 路由服务器和端口。



那么我们现在可以通过地址:



[php]http://192.168.1.203:8088/demo.jpg[/php]    就可以显示我们要的图片了。


最后为这个教程写了个方便部署的 脚本~~。不是很完善~凑合着用。。


1. #!/usr/bin/python
2. #coding:utf-8
3. import os
4. from sys import argv
5. 
6. def runShell(command):
7.     content = ''
8.     out = os.popen(command)
9.     while True:
10.         line = out.readline()
11.         content += line
12.         if not line:
13.             break
14.     return content
15. 
16. if __name__ == '__main__':
17.     '''
18.     
19.     '''
20.     if len(argv) > 1:
21.         para = argv[1]
22.         if para == 'config_mongod':
23.             
24.             config_mongod = {'path':'/data/config','logpath':'/data/config/config.log','port':27019}
25.             print runShell("/usr/local/bin/mongod --configsvr --dbpath=%s --logpath=%s --port %d --logappend --fork" % (config_mongod['path'],config_mongod['logpath'],config_mongod['port']))
26.             
27.         elif para == 'config_mongos':
28.             
29.             config_mongos = {'host':'192.168.1.202:27019','logpath':'/data/config/configdb.log','port':27017}
30.             print runShell("/usr/local/bin/mongos --configdb %s --logpath=%s --port %d --logappend --fork" % (config_mongos['host'],config_mongos['logpath'],config_mongos['port']))
31. 
32.         elif para == 'shard':
33. 
34.             mongodb = {'port':27017,'dbpath':'/data/mongodb','logpath':'/data/mongodb/mongodb.log'}
35.             print runShell("/usr/local/bin/mongod --shardsvr --dbpath=%s --logpath=%s --port %d --logappend --fork" % (mongodb['dbpath'],mongodb['logpath'],mongodb['port']))
36. 
37.         elif para == 'enable':
38.             import pymongo
39.             conn = pymongo.Connection('192.168.1.203',27017)
40.             db = conn.admin
41. 
42.             shardHOST = ["192.168.1.204:27017","192.168.1.205:27017"]
43.             for ip in range(len(shardHOST)):
44.                 db.runCommand({'addshard':shardHOST[ip]})
45. 
46. 
47.             db.runCommand({'enableSharding':'test'})
48.             db.runCommand({'shardcollection':"test.users",'key':{'_id':1}})
49.             
50.     else:
51.         print "no argv!"

复制代码