新年第一篇,聊聊大数据云服务,本篇先聊聊云服务的价值和趋势,不涉及很深入的技术,后面慢慢展开。
不少同学找我咨询Hadoop/Spark集群等设置问题,Hadoop/spark这些基础组件门槛还是比较高,集群安装,配置都算个技术活,是每个初入门同学的必修课。传统的企业版本发行商,如cloudera,提供一个高级的cloudera manager,简化了一部分的工作,但是终极解决这些问题的还是依赖云服务。最典型的就是AWS EMR服务,Amazon EMR 提供的托管 Hadoop 框架可以让您快速轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例之间处理大量数据。
云服务最核心的两个优势:
1)易用
EMR将节点预置,集群设置,Hadoop配置和集群优化这些事情通过云服务的方式隐藏,极大的简化操作步骤和降低了技术人员的门槛。
2)弹性
使用者可以根据需要申请所需要的资源,您可以预置一个、数百个或者甚至数千个计算实例来处理任何规模的数据。您可以手动或使用 Auto Scaling 轻松增加或减少实例的数量,并且按实际用量付费。
可能还有很多观望者提出云服务是否存在安全等问题,但是大家看看业界,实云服务对AWS来说,一年是100亿美金的生意。微软也全面向云转型,股票又重回5000亿美金高峰。再质疑已经没有必要,勇敢尝试才是应该抓紧的。
再来聊聊云服务的标杆厂商AWS的云服务情况。
AWS 几乎是十年前推出的EMR服务,当前这个服务每年大概有1亿美金的收入,大概也就是60人的团队,上来规模,云服务就是一本万利的生意。当前AWS的服务基本覆盖了数据处理的全生命周期,一共有9个服务,如下如所示:
其中Athena和Glue 以及智能服务都是在2016年 re:Invent推出的新服务。
其中Athena的主要是基于开源软件presto做的SQL on S3,主要解决的场景是在S3上提供交互式的SQL接口。GLUE是在pipeline服务的基础上做的ETL服务,提供一定的元数据自动化的能力。可以看出Athena和GLUE都是增值服务,AWS是在积累到一定阶段,进入了一个新的阶段。
2016年可以看着是AI的元年,AWS也是顺应潮流推出了多款语音,文字翻译,对话机器人等服务。这类服务处在一个发展的初期,一些具体的使用场景效果不错,例如这次在CES火了一把的Alexa最早用在aws的 echo 智能设备上,云上也有对应的服务叫lex,相信智能这类服务不用太久就会广泛被用起来。
好了,篇幅有限,更多详情且待下回分解。最后祝愿大家新的一年顺顺利利,健健康康。