最近参与公司一个项目,计划对在线平台的大规模查询做到快速响应,预估数据总量大概在2-3亿条,数据库并发量大概每秒1500,一年后并发大概3000每秒,经过在Redis和mongodb之间艰难的选择之后,决定使用mongodb,主要看中其平行扩展能力和GridFS上的Map/Reduce。预估项目完成上线后,高峰时段每秒并发查询在1500-3000之间。其实我个人是比较喜欢Redis的,其并发查询能
Hadoop其实本身是Linux下开发的应用,不过得益于虚拟机技术,也可以运行在其他平台。例如FreeBSD。不过,Linux用的好好的,为什么用FreeBSD呢?这个问题的回答其实比较复杂,基于几个方面考虑。一、磁盘IO速度其实根据我以前的评测,FreeBSD的UFS2写入速度并不如EXT4快,甚至慢很多,但是读取速度明显快于EXT4和EXT3。每读取1G的数据,基本要比EXT4快0.8-1.5
Hive 是facebook开源的一个基于hadoop框架的查询工具,也就是说,需要用hive的话,就要先安装hadoop。这次是小结一下最近用hive的心得,经验分享。hadoop和hive,pig,hbase的安装配置以后专门另开个连载说比较好。所以,我假设你已经有hive了。1.字段的数据类型。hive实际上为了数据挖掘的需要,对hive表的字段设置了数据类型,对于经常where的,还可以设
前两天同事接了一通电话,然后在部门群里提出一个在电话里对方问他的问题。有10瓶无标签试剂,其中9瓶是盐,1瓶是化学品,该化学品放入水中10分钟后会变色。且无论是否与盐放在一起都会变色。问,最少用多少瓶水可以在10分钟内找出该化学品。也就是一次相溶就需要找到化学品。在半小时内,大家给出了不同的答案,按照软件开发的方式,我将其分类如下。敏捷之道:9瓶水,这是最容易想出来也是速度最快的办法。如果其中有一
抽空用php写了一个基于Hive的查询工具,公司内部使用反响比较好,胡乱填了一些东西之后,将其开源,贡献给需要的人。本项目遵循GPL3许可协议,欢迎有志者加入github共同完善。加上以公司数据组名义贡献的开源脚本easyhadoop,一键安装hadoop脚本。详细软件信息访问phpHiveAdmin 和 github 或者 googlecode安装说明1: 运行"git cl
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号