存储分析 Watson对于数据存储意味着什么？

精选转载

IBM技术博客 2011-05-11 11:22:46 博主文章分类：IBM存储

不知道从什么时候开始，我们的电视荧屏上出现了一批类型非常独特的节目--智力挑战赛。无论是那个曾经引起无数效仿的著名节目《谁将成为百万富翁》，还是我国的"砸金蛋"，这类节目都吸引了众多的参与者以及数以万计的观众，而吸引他们的无疑是天价的奖金或者奖品。当然，要想在这类节目中折冠，参与者也需要有非比寻常的知识积累和情商。今天,这样的故事在美国的一档电视智力问答节目《危险边缘》上再次上演，优胜者Watson以绝对优势战胜两名对手，捧走了77147美元奖金。而他（它）的这一胜利，应该足以在科技发展史上留下一个烙印。

Watson是谁？

当然，我们这里所讲的Watson不是福尔摩斯里面的医生，也不是超市，更不是Windows里面的那个不太常被人关注的程序。

Watson 是IBM所研发出来的最新的大型智能计算机，其命名源自于IBM的创始人ThomasJWatson。其主要组成为90个跑在Linux系统上的 POWER 750服务器，内含2880个处理器内核、4TB的内置存储以及15TB的RAM（也有说法是16TB RAM），这些服务器设备被放在了10个机架上面。值得一提的是，其存储系统所采用的是经过特殊优化的IBM Scale-out架构NAS产品--SONAS。

在《贫民窟的百万富翁》这部电影中，男主角通过生活的历练，获取了很多鲜为人知的知识和经验，而这些"财富"使得他最终得到了大笔的金钱。而作为一部机器，Watson何以能够获得如此多的内容积累呢？这全都是依靠其所存储的多达2 亿页的文档信息。依靠这些内容，Watson能够在三秒钟内从海量数据中寻找到同问题有逻辑关系的列表，并从中筛选出契合度最高的答案，按下抢答按钮。

然而，从存储的角度来讲，Watson真的是依靠海量数据检索来取胜的吗？

海量数据的本源

从IBM博客作者Tony Pearson的文章中，我们能够找到一些非常有意思的东西。Pearson是这样描述Watson的数据处理过程的："当Watson启动时，其15TB的RAM都会被装载，此后，DeepQA（IBM的智能分析软件）进程从内存载入。IBM Research表示，在实际应用的数据总量中（分析和索引数据，知识库等），用于生成候选答案和评估证据的大小在1TB以内。

当然，这并不是Watson存储的总容量，根据了解，其所挂接的IBM SONAS集群总容量为21.6TB。当然，如同上文所说，其中很大一部分都是分析和索引数据、应用以及知识库。

是的，尽管Watson似乎无所不知，不过其所依靠的基础并非我们所想象的海量数据，而只是一个1TB驱动器所能承载下的内容。

数据分析引擎，比去重更有效的精简之道？

长期以来，我们对于数据的关注范围似乎局限在了一个小圈子里，数据管理、数据精简、数据保护......然而，在这些之外呢？数据存储摆脱服务器的阴影，成为自成体系的系统是来源于对数据性能的需求；那么，海量数据的整合、排列以及分析，是否也将成为一套独立的市场？

如今，无论是惠普、IBM还是EMC，已经有越来越多的厂商开始关注数据分析方面的技术进展。Watson在竞赛中的成功至少说明了一点，数据引擎的作用是巨大的。这样一个强大的数据引擎，不仅需要有性能强劲的服务器集群、存储集群、高速网络，而且还需要开发出同最终应用范围相匹配的算法和逻辑结构。

从战胜了人类棋手的深蓝，到在智力竞赛中获胜的Watson一共历经了14年时间，在这段长时间的跨度中，企业级应用的成长并不仅仅是工艺制程、原理结构、制造原料等等，还包括着数据结构、技术协议以及逻辑算法等我们不能看到，捕捉到的信息。而这些内容，毫无疑问是由人类所创造并且改进的。从这一点上来说，Watson的最终胜利也是人类在科学技术方面的胜利。

更多精彩内容请关注：
IBM存储化官方微博
IBM存储化官方网站