通过学习Google这三篇论文,我初步了解了Google文件系统(Google
File System – GFS),Bigtable和MapReduce。因为这三篇论文内容过于丰富而我的论文读后感字数有限,所以我就简单讲一下Google文件系统的有关内容以及读完之后的感受。

Google文件系统是Google公司根据传统分布式文件系统和自身的应用的负载情况和技术环境的观察的影响来设计的。因此,不管是目前还是未来,Google文件系统和早期的文件系统的假设都有明显的差异。

Google文件系统具有很强的实际性和可行性。我们都知道,像谷歌这种大公司在运行时他们要处理很多数据,而且还会有用户实时更改数据,这就要求谷歌文件系统能够适应这种特点。为了高效完成任务,谷歌文件系统有其自身的方法。首先,因为谷歌要处理各种数据,这里谷歌就把这些数据分为大规模数据和小规模的数据,在读取数据时,系统的工作负载主要有两种读操作组成:一种是适应于前者数据类型的流式读取,另一种是适应于后者的随机读取。其中大规模的流式读取大部分是一次读取数百KB甚至1MB的数据。而小规模的读取则是采用随机读取,即在文件中随机读取几个KB的数据。如果应用程序对性能很关注,则一般把上面的数据合并并排序,之后再按顺序批量读取。接着,为了应对数据会被很多用户实时更改这一问题,谷歌文件系统采取的办法是在大多数文件的修改时在文件尾部追加数据,而不是直接取代之前的数据。因为大多数数据的特性是在被写出来后,对文件的操作就但部分是按顺序读。像正在运行程序输出的数据流,一台计算机生成而另一台计算机处理的中间数据,电脑留存的数据,这些数据的处理可能是同时或者后续处理的。对于这种访问模式,客户端对于数据缓存是没有价值的,而谷歌采取的追加是更可靠的办法。此外,文件处理后,虽然说计算机出现问题的概率很小,但是由于处理的数据多,即计算机处理的数据基数大。因此计算机的像应用程序,操作系统的随机失误,人为的失误,计算机硬盘、内存,电源等各种各样的问题在数据处理时都会出现。而这些因各种问题而出现了的错误数据都需要处理所以,为了实现准确,高效的目标,谷歌文件系统里面就安排了持续监控,灾难冗余和自动回复的机制。

虽然作为一名非计算机专业的学生读这样一篇计算机专业性很强的文章有点吃力,但我还是有一些感受的,就比如说如何处理事情。我们都知道,所有的问题一旦涉及面很大就会变的很棘手。这个时候,我们就要采取一定的方法来处理,像谷歌文件系统这种在数据处理室有一定监控的手段就很有效。就比如说我要完成一次实验,如果出现问题从头开始检查就很困难,也很费事,因此在每一步操作都应该看一下是否正确,这样出现问题的概率就会减少很多。还有我们经常会因为长期的工作积累导致文件的实效,因此我们就要对每个完成好的文件进行拷贝,一旦出现了问题,我们就可以对副本进行恢复。同时,通过对着三篇文章的大致阅读以及平时学习计算机的感受,我感觉是一个逻辑性很强的工具,为了使计算器高效运行,我们必须使每一步及每一步的每一种情况都考虑进去,并针对每一种情况都要给一定的解决办法。就比如说在处理数据使要有收集的步骤,储存的步骤,后面要有提取使用数据、应对数据丢失等步骤,而每一步都有各自的问题,比如说使用的这一步骤,该怎样使用,使用什么样类型的数据要有明确的规定。着就和我们工作很想,我们要完成一件事,就要考虑好要怎么做,并对要做的事情进行模拟,看看可能会出现什么问题,该怎么解决问题。然后通过实践逐渐总结经验再完善每一步。同时,随着我们的学习越来越向实际靠近,我们的任务变数就越来越大,处理的问题也就不会向大学之前那样有固定的答案。着就需要我们有耐心,有思考,细心地完成我们的任务。

俗话说:隔行如隔山,由于这几篇文章实在是专业性太强了,本人不能很好的理解里面步骤的奥妙之处,所以我就把我最有感受的内容写出来了,不喜勿喷。