星环科技孙元浩:Hadoop应用的三个阶段, 2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。
Haoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据
在2013 Hadoop中国技术峰会即将召开之际,记者采访到大会联合主席——星环信息科技(上海)有限公司联合创始人兼CTO孙元浩,分享了自己对Hadoop应用现状和未来的理解。
Hadoop应用的三个阶段
孙元浩认为,Hadoop在中国的应用可以分为三个阶段:第一阶段是2009-2010年,随着云计算和数据中心的建设,数据趋于集中,Hadoop开始用于数据存储和离线分析。当时运用Hadoop的企业既有传统企业也有互联网企业,但成功的主要是互联网企业,这是由于互联网企业比传统企业拥有更大的数据量。当数据量大于100TB时,Hadoop成为唯一的选择;而当数据量小于1TB时,Hadoop的性能仅为MPP数据库的1/15~1/10。
第二阶段是2011年到2012年,随着物联网的风潮和数据在线透明化的要求,HBase成为数据在线展现和实时数据采集存储的技术手段,被广泛应用于电信行业和交通行业。
第三阶段是2012-2013年,随着大数据热潮的兴起,Hadoop开始增加SQL支持,降低应用门槛,提高技术易用性。传统数据库和BI厂商也纷纷推出Hadoop接口,为用户提供Hadoop服务。对于业界呼声比较高的、将Hadoop与MPP数据库的整合方案,孙元浩并不看好,他认为Hadoop的未来必将支持完整的SQL和所有的报表工具,随着性能的提升,未来完全可以用Hadoop替代MPP数据库。
未来,Hadoop还将在精细数据挖掘、机器学习和图推理等新技术方面逐步推进,重点在于数据价值的挖掘。总的来说,数据量增长是推动Hadoop发展的最初和最大源动力,而价值挖掘成为推动Hadoop未来发展的主要动力。除了Hadoop,孙元浩还看好内存计算技术、流处理、图计算、预测分析等大数据技术的发展。
Hadoop初学者指南
对于Hadoop的初学者,孙元浩为大家推荐了两本书,即《Hadoop权威指南》和《HBase权威指南》,通过学习可以对Hadoop有一个初步的认识。除此之外,更重要的是对Hadoop的实践操作,包括安装、测试、开发测试用例、开发应用四个阶段,其中优秀的技术人员会成为Hadoop的开发者。
他认为,学习Hadoop最好的方法就是看源代码,只有这样才能真正了解Hadoop。初学者开发测试用例需要1-2周,开发应用需要1-2个月,而读懂源代码、开始做Hadoop底层代码开发起码也要6个月,成为Hadoop 贡献者则需要至少1年。
谈到2013 Hadoop中国技术峰会的亮点,孙元浩表示,对Hadoop新技术的探讨、Hadoop在各个行业的应用案例,以及对大数据创业和投资的探讨是他最关注的三个话题。他希望开发人员能在此次大会上了解到最新的技术;用户能在此次大会上了解到更多的使用案例,以及商业模式的探索,向国外的Hadoop Summit看齐。
据了解,孙元浩于2003年加入英特尔,曾任英特尔亚太研发有限公司数据中心软件部亚太区CTO,负责英特尔Hadoop发行版的研发和产品化工作。曾是英特尔Hadoop发行版的创始人,带领团队研发企业级Hadoop发行版。2013年离开英特尔创办星环科技,致力于Hadoop之上的高效计算引擎和数据分析算法的研发。在2013 Hadoop中国技术峰会上将会发布这一最新产品。
作者:小野