温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。


Fayson的github:

​https://github.com/fayson/cdhproject​


提示:代码块部分可以左右滑动查看噢


7月13日,Hortonworks在其官网宣布发布HDP3.0,包括Ambari2.7和SmartSense1.5。包括下载仓库与配套文档都正式GA。


Hortonworks正式发布HDP3.0_数据


1.更新概要



HDP3.0是大数据生态系统的一次巨大飞跃,整个技术栈发生了重大变化,并扩展了周边的生态系统(深度学习和第三方Docker应用程序)。HDP3.0同时支持物理本地部署以及主要的公有云部署包括AWS,Azure和Google Cloud。许多HDP3.0的新特性都是基于Apache Hadoop3.1的,包括容器化,GPU支持,纠删码和NameNode联邦。为了提供受信任以及安全的数据湖,HDP3.0默认安装包括Apache Ranger与Apache Atlas。为了简化堆栈,HDP3.0移除了一些组件包括Apache Falcon,Apache Mahout, Apache Flume和Apache Hue,同时将Apache Slider的功能引入到Apache YARN中。


Hortonworks正式发布HDP3.0_数据_02


Hortonworks正式发布HDP3.0_数据_03


2.HDFS

2.1.用于冷数据的纠删码



1.使用具有6个数据分片和3个奇偶校验分片的Reed Solomon编码将存储开销降低50%,同时可以保证数据的可用性,与3副本相似(在HDP工具中包含的可选的Intel存储加速库)。


Hortonworks正式发布HDP3.0_数据_04


2.2.NameNode联邦



1.使用Ambari UI向导可以启用NameNode联邦,从而线性的扩展HDFS namespace,同时支持Hive,Spark和Ranger。


Hortonworks正式发布HDP3.0_spark_05


2.3.云储存&企业功能强化



1.Google Cloud Storage连接器


2.通过NFS gateway支持,View Filesystem可以启用一个统一的全局视图。


3.每个namespace的多个stanby NameNode可以提高可用性(Ambari UI不支持)。


4.在单个DataNode内,对于不同容量的磁盘,可以balance数据。


3.YARN

3.1.YARN上的容器化服务



1.YARN支持运行Docker容器。


2.YARN上支持Docker化的Spark作业。


3.支持Slider功能,简化YARN的REST API和DNS发现。


Hortonworks正式发布HDP3.0_数据_06


3.2.增强的可靠性,可用性和可维护性



1.对于用户和开发人员更友好的YARN UI。


2.可扩展的Application Timeline Services2.0,支持基于流的应用程序性能管理(APM)。


4.Hive



1.LLAP的工作负载管理

你可以在LLAP池中分配资源池,并基于每个用户或每个组分配资源。这样可以支持大型集群的多租户功能。


2.ACID v2以及默认开启ACID

我们正在发布ACID v2。 随着存储格式和执行引擎的性能改进,与非ACID表相比,我们看到了相同或更好的性能。因此,我们默认启用ACID并启用对数据更新的完全支持。


3.Spark的Hive仓库连接器

Hive WarehouseConnector允许你将Spark应用程序与Hive数据仓库连接。连接器自动处理ACID表。这使数据科学工作负载能够很好地与Hive中的数据配合使用。


4.物化视图

物化视图允许你预先聚合和预先计算查询中使用的表。通常最适合子查询或中间表。如果这些中间结果可用,基于成本的优化程序将自动查询这些中间结果,从而大大加快查询速度。


5.Information schema

通MySQL类似,现在可以直接通过Hive SQL借口查询数据库的元数据(表,列等)。


6.JDBC存储连接器

你现在可以将任何支持JDBC的数据库映射到Hive的catalog。这意味着你现在可以使用Hive对其他数据库和Hive中的表进行join操作。


7.Kafka-Druid ingest

你现在可以将Kafkatopic映射到Druid表中。消息事件会自动抽取到Druid中,然后提供准实时的查询。这与Kafka-Hive ingest不同,Kafka-Hive ingest使用SQL合并定期将数据加载到Hive表中,数据延迟一般为5-10分钟。


5.机器学习与深度学习



主要包括Spark/Zeppelin/Livy

核心能力:

1.支持Apache Spark2.3.1

2.ORC支持Structured Streaming

3.Spark History Server支持安全与ACL

4.支持在Docker容器中运行Spark作业

5.将Spark/Zeppelin/Livy从HDP2.6更新到HDP3.0

6.与S3Guard/S3A的开发人员进行Spark测试

7.与Spark认证Staging Committer

8.集成新的Metastore Catalog特性

9.Spark thrift server的Beeline支持

10.在Ambari中配置LLAP模式


集成:

1.支持每个notebook解释器配置

2.Livy支持ACL

3.Knox代理Spark History Server UI

4.Hive流式库支持Structured Streaming

5.透明写入Hive仓库

6.Ranger支持Spark-LLAP连接器


深度学习:

1.TensorFlow 1.8(仅供技术预览)


6.流式处理引擎



主要包括Kafka和Storm

1.支持Kafka1.0.1


2.重大更新

KAFKA-6172 - TimeIndex中的Cache lastEntry以避免不必要的磁盘访问。

KAFKA-6175 - AbstractIndex会缓存索引文件以避免不必要的磁盘访问在resize()期间。

KAFKA-6258 - SSLTransportLayer会保持从socket读取,直到缓冲区已满或socket中没有更多数据。


3.支持Storm1.2.1,该Storm版本同时支持HDP3.0中其他更新组件包括Hadoop/HDFS3.0, HBase2.0和Hive3。


4.捕获producer和topic分区级别的指标,而不需要在客户端配置拦截器。这提供了一种非侵入性的方法来捕获producer的重要指标,而无需重构/修改现有的Kafka客户端。


7.操作型数据库



Apache HBase的新特性。

1.备份和恢复

HBase源生支持备份/恢复,包括全量和增量的备份/恢复支持。这是admin工具包中的一个重要工具,下一个版本将支持DLM,即UI。


2.Procedure V2

你现在可以使用Procedure V2(社区里也叫Proc-v2),这是一个更新的框架,用于在发生故障时执行多步骤的HBase管理操作。引入此功能是使用proc-v2来实现所有master操作,并在未来移除像hbck这种工具。使用proc-v2创建,修改和删除表。新的AssignmentManager等其他系统也会使用proc-v2实现。


3.Fully off-heap read/write path

当通过Put操作将数据写入HBase时,在将数据flush到HFile之前,cell对象不会进入JVM heap。这有助于减少RegionServer的总heap使用量,并且复制更少的数据,从而提高效率。


4.Use of Netty for RPC layer and Async API

将旧的Java NIO RPC服务替换为Netty RPC服务。Netty可以更容易的提供异步的Java客户端API。


5.In-memory compactions (Accordion)

Memstore中数据的定期重组可以减少整体I/O,即从HDFS写入和访问的数据。当我们在内存中保留更长时间的数据时,净性能会提高。


6.更好的依赖管理

HBase现在内部隐藏了通常不兼容的依赖,以防止出现问题。 你也可以使用隐藏的客户端jars,这将减轻现有应用程序的负担。


7.重写Coprocessor和Observer API

对API进行了微小的更改,以消除模糊,误导和危险的调用。


Apache Phoenix的新特性

1.HBase2.0支持


2.Phoenix Query服务的Python驱动

这是引入到Apache Phoenix项目的社区驱动程序。它提供Python db 2.0 API实现。


3.查询日志

这是一个新的系统表“SYSTEM.LOG”,它捕获有关针对集群运行的查询的信息(客户端驱动的)。


4.列编码

这是HDP的新功能。你可以在HBase表中使用自定义数据编码方案来减少占用的空间。由于读取的数据较少,可以增加性能以及减少存储。稀疏表的性能增益为30%及以上。


5.Phoenix的Hive3.0支持

对于新的Hive版本提供新的phoenix-hive StorageHandler(技术预览)。


6.Spark 2.3支持Phoenix

对于新的Spark版本提供新的phoenix-spark驱动


7.支持GRANT和REVOKE命令

如果数据表或视图更改了访问权限,它会自动更改索引ACL。


8.引入对sampling tables的支持。


9.支持atomic update (ON DUPLICATE KEY)。


10.支持基于MR查询的snapshot扫描。


11.加强Local和Global的二级索引。


8.安全和治理

8.1.Apache Ranger

8.1.1.核心策略引擎和审计功能增强



1.可调度策略:策略生效日期,以支持有时间限制的授权策略和临时策略

2.覆盖策略以支持临时资源访问,覆盖特定用户的masking/row filtering

3.Auditor和KMS Auditor角色,支持对服务,策略,用户/组,审核和报告的只读访问。

4.在access audits UI中显示Hive查询。

5.在Ranger Admin UI中审计用户同步操作

6.用于分组和组织策略以及按标签filter/search的策略标签

7.Ranger Admin UI中显示的组中的用户成员身份


8.1.2.生态系统覆盖和增强



1.为Atlas通过细粒度授权实现Metadata安全性。

2.Atlas Tag Sync service性能提升。

3.Hive UDF执行和使用授权。

4.Hive工作负载管理授权。

5.通过Hive Information_schema支持entitlement mapping。

6.HDFS NameNode联邦支持

7.通过Solr 7支持,改进了索引基础架构。

8.Ranger插件兼容HDP3.0其他的组件包括Hive,HDFS,Storm,HBase,Kafka和YARN。


8.1.3.适用于企业



1.能够在Ranger安装期间为管理员帐户指定密码

2.所有受支持的DB flavor的合并db schema脚本

3.在安装HDP3.0时,默认安装Ranger和Atlas。


8.2.Apache Atlas

8.2.1.核心元数据功能



1.新的Glossary和Business Catalog

使业务用户能够捕获自然业务术语并提供业务词汇管理(术语分类,业务术语 - 资产关联,语义术语关系,层次结构)


2.Classification (tag)Propagation

通过对传播进行细粒度控制的分类(标签)传播到相关或衍生资产,改进监管链


3.Metadata Security

对data catalog中元数据的细粒度授权(对元数据操作的特定标签授权,数据资产/类型/管理操作授权,如元数据导入/导出)


4.有时间限制的分类或业务目录映射


8.2.2.生态系统覆盖和增强



1.新的Spark Hook(技术预览),用于在Atlas中捕获Spark SQL,Dataframe和模型元数据以及数据溯源。

2.新的HBase hook以捕获元数据和数据溯源。

3.通过Solr 7支持,改进了索引基础架构。

4.使用JanusGraph DB提供Tinkerpop 3标准兼容性的图形后端,提升可扩展性以及性能。

5.更新了用于HDP3.0生态系统兼容性的Atlas Hook(Hive,Storm / Kafka,Sqoop)

6.使用新的v2样式通知改进了元数据加载性能

7.通过大规模的DSL重构提高搜索性能。


9.AMBARI 2.7 & SMARTSENSE 1.5.0

9.1.Ambari2.7



1.可用性

新的Ambari UI改动很大,更易于大规模导航,使用和执行。


2.管理性和扩展性

Ambari 2.7支持最多管理5000个节点的集群。


3.简化安全配置

单点登录是安全性和与数据平面服务(DPS)集成的必要条件,因此我们简化了DPS服务的SSO设置。FreeIPA是一种广受欢迎的IDM工具,我们现在正式支持在启用Kerberos时与FreeIPA集成。


4.自动化

Ambari拥有强大的API,我们新的REST API资源管理器可帮助团队发现并理解它所提供的一切。


5.可扩展性

与EMC紧密合作,以改善Ambari和HDP与Isilon OneFS的集成。现在,你可以轻松配置集群使用OneFS。


6.Papercuts

新功能非常棒,主要帮助你的Ambari的日常生活。


9.2.SmartSense1.5.0



1.诊断捕获

SmartSense现在可以捕获NiFi Registry,Schema Registry,Streaming Analytics Manager,Ambari Infra和Data Analytics Studio诊断信息。


2.活动分析

对于使用新的HDFS联邦功能的用户,每个namespace都可以使用活动数据。常用的过滤器也已全局化,以简化过滤和数据探索,现在可以看到LLAP查询。此外,还添加了三个新的活动资源管理器仪表板:作业比较,用户摘要和工作负载趋势。


3.Ambari视图

SmartSense视图包含对捕获内容的完整描述,以增强透明度并简化与安全团队的交流。



原文地址:

​https://zh.hortonworks.com/blog/announcing-general-availability-hortonworks-data-platform-3-0-0-ambari-2-7-0-smartsense-1-5-0/​



提示:代码块部分可以左右滑动查看噢


为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。



推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

Hortonworks正式发布HDP3.0_hive_07