问这个问题说明你对计算机还是有一定了解的。那我就从开发人员的角度解释下为什么数据库必不可少。

以一个简单的例子入手,假设现在要求你做一个简单的电影信息检索的网站,以供查询演员信息和电影信息,这些数据都存在普通文件中等待检索请求。

假设在文件中,数据以CVS的格式组织:

Actors.txt(name, gender,country)结构如下:

"Jacky Chan", “male”, "China"
"Tony Jaa", “male”,"Thailand"
"Tom Hanks", “male”, "USA"
“Jennifer Lawrence”, “female”, ”USA”
Movies.txt(name, protagonist, year) 结构如下:
"Rush Hour", “Jacky Chan”, 1998
"Hunger Game", “Jennifer Lawrence”,2012
"Saving Private Ryan", “Tom Hanks”, 1998
"Sally", “Tom Hanks”, 2016

第一个请求,我要查询Saving Private Ryan上映的年份,是不是得用以下遍历函数:

for line in file:
record = parse(line)
if "Saving Private Ryan"== record[0]:
print int(record[1])

可想而知,当某个文件有几百G的时候,你运行这样的查找程序试试?扫描文件,多次IO会让查询异常缓慢。这样的响应时间,任何应用恐怕都不能接受。即使全部数据全部放在内存,没有索引支撑,遍历一遍也是相当耗时的。然而,有了数据库,各种索引技术、内存缓存技术轻而易举的解决这个问题。

然后,我们再来考虑数据完整的问题(DATA INTEGRITY)。

(1)Movies.txt包含两条Tom Hanks主演电影,如何确保这两条记录里的Tom Hanks是同一个人?如何确定不是重名的演员?

(2)假如有人修改Movies.txt中某条记录的year属性为201y这种无效的年份表达怎么办?

(3)一部电影有多个主演时,这种情况该怎么存储?

显然文件系统不会考虑这些问题,作为网站的开发者,光考虑解决这些问题头都要爆炸了吧。而数据库的各种完整性约束会制定一些规则,保证数据的有效、完整、正确、一致。

此外,作为一个网站,每天成千上万的用户访问必不可少吧。那么当多个用户检索、修改同一文件里的数据时怎么处理?多个线程并发写一个文件、甚至写同一条记录时如何处理?在并发写的情况下,如果像文件系统一样,没有任何保证机制,难以想象数据会被写成什么样子。数据库的并发控制机制(基于锁、基于快照等)专门解决这类问题。

最后,关于数据的持久性。当正在更新某条记录时,系统崩溃了,这条数据会怎么处理?

另外,为防止磁盘损坏数据丢失,如何将数据高效的复制到另一台机器上做备份?文件系统显然不会考虑这些,但数据库系统却有相关机制保证数据持久正确可用。

数据面临的问题实在太多了,如果这些都要应用开发者去亲自处理,那这个工程得巨大到什么程度?这个时候,数据库的重要性就不言而喻了。