Hortonworks正式发布HDP3.0

原创

Hadoop实操 2022-09-22 15:16:09 ©著作权

文章标签 hive 数据 spark 文章分类 运维

©著作权归作者所有：来自51CTO博客作者Hadoop实操的原创作品，请联系作者获取转载授权，否则将追究法律责任

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。

Fayson的github：
https://github.com/fayson/cdhproject

提示：代码块部分可以左右滑动查看噢

7月13日，Hortonworks在其官网宣布发布HDP3.0，包括Ambari2.7和SmartSense1.5。包括下载仓库与配套文档都正式GA。

Hortonworks正式发布HDP3.0_数据

1.更新概要

HDP3.0是大数据生态系统的一次巨大飞跃，整个技术栈发生了重大变化，并扩展了周边的生态系统（深度学习和第三方Docker应用程序）。HDP3.0同时支持物理本地部署以及主要的公有云部署包括AWS，Azure和Google Cloud。许多HDP3.0的新特性都是基于Apache Hadoop3.1的，包括容器化，GPU支持，纠删码和NameNode联邦。为了提供受信任以及安全的数据湖，HDP3.0默认安装包括Apache Ranger与Apache Atlas。为了简化堆栈，HDP3.0移除了一些组件包括Apache Falcon，Apache Mahout， Apache Flume和Apache Hue，同时将Apache Slider的功能引入到Apache YARN中。

Hortonworks正式发布HDP3.0_数据_02

Hortonworks正式发布HDP3.0_数据_03

2.HDFS

2.1.用于冷数据的纠删码

1.使用具有6个数据分片和3个奇偶校验分片的Reed Solomon编码将存储开销降低50％，同时可以保证数据的可用性，与3副本相似(在HDP工具中包含的可选的Intel存储加速库)。

Hortonworks正式发布HDP3.0_数据_04

2.2.NameNode联邦

1.使用Ambari UI向导可以启用NameNode联邦，从而线性的扩展HDFS namespace，同时支持Hive，Spark和Ranger。

Hortonworks正式发布HDP3.0_spark_05

2.3.云储存&企业功能强化

1.Google Cloud Storage连接器

2.通过NFS gateway支持，View Filesystem可以启用一个统一的全局视图。

3.每个namespace的多个stanby NameNode可以提高可用性（Ambari UI不支持）。

4.在单个DataNode内，对于不同容量的磁盘，可以balance数据。

3.YARN

3.1.YARN上的容器化服务

1.YARN支持运行Docker容器。

2.YARN上支持Docker化的Spark作业。

3.支持Slider功能，简化YARN的REST API和DNS发现。

Hortonworks正式发布HDP3.0_数据_06

3.2.增强的可靠性，可用性和可维护性

1.对于用户和开发人员更友好的YARN UI。

2.可扩展的Application Timeline Services2.0，支持基于流的应用程序性能管理(APM)。

4.Hive

1.LLAP的工作负载管理

你可以在LLAP池中分配资源池，并基于每个用户或每个组分配资源。这样可以支持大型集群的多租户功能。

2.ACID v2以及默认开启ACID

我们正在发布ACID v2。随着存储格式和执行引擎的性能改进，与非ACID表相比，我们看到了相同或更好的性能。因此，我们默认启用ACID并启用对数据更新的完全支持。

3.Spark的Hive仓库连接器

Hive WarehouseConnector允许你将Spark应用程序与Hive数据仓库连接。连接器自动处理ACID表。这使数据科学工作负载能够很好地与Hive中的数据配合使用。

4.物化视图

物化视图允许你预先聚合和预先计算查询中使用的表。通常最适合子查询或中间表。如果这些中间结果可用，基于成本的优化程序将自动查询这些中间结果，从而大大加快查询速度。

5.Information schema

通MySQL类似，现在可以直接通过Hive SQL借口查询数据库的元数据（表，列等）。

6.JDBC存储连接器

你现在可以将任何支持JDBC的数据库映射到Hive的catalog。这意味着你现在可以使用Hive对其他数据库和Hive中的表进行join操作。

7.Kafka-Druid ingest

你现在可以将Kafkatopic映射到Druid表中。消息事件会自动抽取到Druid中，然后提供准实时的查询。这与Kafka-Hive ingest不同，Kafka-Hive ingest使用SQL合并定期将数据加载到Hive表中，数据延迟一般为5-10分钟。

5.机器学习与深度学习

主要包括Spark/Zeppelin/Livy

核心能力：

1.支持Apache Spark2.3.1

2.ORC支持Structured Streaming

3.Spark History Server支持安全与ACL

4.支持在Docker容器中运行Spark作业

5.将Spark/Zeppelin/Livy从HDP2.6更新到HDP3.0

6.与S3Guard/S3A的开发人员进行Spark测试

7.与Spark认证Staging Committer

8.集成新的Metastore Catalog特性

9.Spark thrift server的Beeline支持

10.在Ambari中配置LLAP模式

集成：

1.支持每个notebook解释器配置

2.Livy支持ACL

3.Knox代理Spark History Server UI

4.Hive流式库支持Structured Streaming

5.透明写入Hive仓库

6.Ranger支持Spark-LLAP连接器

深度学习：

1.TensorFlow 1.8（仅供技术预览）

6.流式处理引擎

主要包括Kafka和Storm

1.支持Kafka1.0.1

2.重大更新

KAFKA-6172 - TimeIndex中的Cache lastEntry以避免不必要的磁盘访问。

KAFKA-6175 - AbstractIndex会缓存索引文件以避免不必要的磁盘访问在resize()期间。

KAFKA-6258 - SSLTransportLayer会保持从socket读取，直到缓冲区已满或socket中没有更多数据。

3.支持Storm1.2.1，该Storm版本同时支持HDP3.0中其他更新组件包括Hadoop/HDFS3.0, HBase2.0和Hive3。

4.捕获producer和topic分区级别的指标，而不需要在客户端配置拦截器。这提供了一种非侵入性的方法来捕获producer的重要指标，而无需重构/修改现有的Kafka客户端。

7.操作型数据库

Apache HBase的新特性。

1.备份和恢复

HBase源生支持备份/恢复，包括全量和增量的备份/恢复支持。这是admin工具包中的一个重要工具，下一个版本将支持DLM，即UI。

2.Procedure V2

你现在可以使用Procedure V2（社区里也叫Proc-v2），这是一个更新的框架，用于在发生故障时执行多步骤的HBase管理操作。引入此功能是使用proc-v2来实现所有master操作，并在未来移除像hbck这种工具。使用proc-v2创建，修改和删除表。新的AssignmentManager等其他系统也会使用proc-v2实现。

3.Fully off-heap read/write path

当通过Put操作将数据写入HBase时，在将数据flush到HFile之前，cell对象不会进入JVM heap。这有助于减少RegionServer的总heap使用量，并且复制更少的数据，从而提高效率。

4.Use of Netty for RPC layer and Async API

将旧的Java NIO RPC服务替换为Netty RPC服务。Netty可以更容易的提供异步的Java客户端API。

5.In-memory compactions (Accordion)

Memstore中数据的定期重组可以减少整体I/O，即从HDFS写入和访问的数据。当我们在内存中保留更长时间的数据时，净性能会提高。

6.更好的依赖管理

HBase现在内部隐藏了通常不兼容的依赖，以防止出现问题。你也可以使用隐藏的客户端jars，这将减轻现有应用程序的负担。

7.重写Coprocessor和Observer API

对API进行了微小的更改，以消除模糊，误导和危险的调用。

Apache Phoenix的新特性

1.HBase2.0支持

2.Phoenix Query服务的Python驱动

这是引入到Apache Phoenix项目的社区驱动程序。它提供Python db 2.0 API实现。

3.查询日志

这是一个新的系统表“SYSTEM.LOG”，它捕获有关针对集群运行的查询的信息（客户端驱动的）。

4.列编码

这是HDP的新功能。你可以在HBase表中使用自定义数据编码方案来减少占用的空间。由于读取的数据较少，可以增加性能以及减少存储。稀疏表的性能增益为30％及以上。

5.Phoenix的Hive3.0支持

对于新的Hive版本提供新的phoenix-hive StorageHandler（技术预览）。

6.Spark 2.3支持Phoenix

对于新的Spark版本提供新的phoenix-spark驱动

7.支持GRANT和REVOKE命令

如果数据表或视图更改了访问权限，它会自动更改索引ACL。

8.引入对sampling tables的支持。

9.支持atomic update (ON DUPLICATE KEY)。

10.支持基于MR查询的snapshot扫描。

11.加强Local和Global的二级索引。

8.安全和治理

8.1.Apache Ranger

8.1.1.核心策略引擎和审计功能增强

1.可调度策略：策略生效日期，以支持有时间限制的授权策略和临时策略

2.覆盖策略以支持临时资源访问，覆盖特定用户的masking/row filtering

3.Auditor和KMS Auditor角色，支持对服务，策略，用户/组，审核和报告的只读访问。

4.在access audits UI中显示Hive查询。

5.在Ranger Admin UI中审计用户同步操作

6.用于分组和组织策略以及按标签filter/search的策略标签

7.Ranger Admin UI中显示的组中的用户成员身份

8.1.2.生态系统覆盖和增强

1.为Atlas通过细粒度授权实现Metadata安全性。

2.Atlas Tag Sync service性能提升。

3.Hive UDF执行和使用授权。

4.Hive工作负载管理授权。

5.通过Hive Information_schema支持entitlement mapping。

6.HDFS NameNode联邦支持

7.通过Solr 7支持，改进了索引基础架构。

8.Ranger插件兼容HDP3.0其他的组件包括Hive，HDFS，Storm，HBase，Kafka和YARN。

8.1.3.适用于企业

1.能够在Ranger安装期间为管理员帐户指定密码

2.所有受支持的DB flavor的合并db schema脚本

3.在安装HDP3.0时，默认安装Ranger和Atlas。

8.2.Apache Atlas

8.2.1.核心元数据功能

1.新的Glossary和Business Catalog

使业务用户能够捕获自然业务术语并提供业务词汇管理（术语分类，业务术语 - 资产关联，语义术语关系，层次结构）

2.Classification (tag)Propagation

通过对传播进行细粒度控制的分类（标签）传播到相关或衍生资产，改进监管链

3.Metadata Security

对data catalog中元数据的细粒度授权（对元数据操作的特定标签授权，数据资产/类型/管理操作授权，如元数据导入/导出）

4.有时间限制的分类或业务目录映射

8.2.2.生态系统覆盖和增强

1.新的Spark Hook（技术预览），用于在Atlas中捕获Spark SQL，Dataframe和模型元数据以及数据溯源。

2.新的HBase hook以捕获元数据和数据溯源。

3.通过Solr 7支持，改进了索引基础架构。

4.使用JanusGraph DB提供Tinkerpop 3标准兼容性的图形后端，提升可扩展性以及性能。

5.更新了用于HDP3.0生态系统兼容性的Atlas Hook（Hive，Storm / Kafka，Sqoop）

6.使用新的v2样式通知改进了元数据加载性能

7.通过大规模的DSL重构提高搜索性能。

9.AMBARI 2.7 & SMARTSENSE 1.5.0

9.1.Ambari2.7

1.可用性

新的Ambari UI改动很大，更易于大规模导航，使用和执行。

2.管理性和扩展性

Ambari 2.7支持最多管理5000个节点的集群。

3.简化安全配置

单点登录是安全性和与数据平面服务（DPS）集成的必要条件，因此我们简化了DPS服务的SSO设置。FreeIPA是一种广受欢迎的IDM工具，我们现在正式支持在启用Kerberos时与FreeIPA集成。

4.自动化

Ambari拥有强大的API，我们新的REST API资源管理器可帮助团队发现并理解它所提供的一切。

5.可扩展性

与EMC紧密合作，以改善Ambari和HDP与Isilon OneFS的集成。现在，你可以轻松配置集群使用OneFS。

6.Papercuts

新功能非常棒，主要帮助你的Ambari的日常生活。

9.2.SmartSense1.5.0

1.诊断捕获

SmartSense现在可以捕获NiFi Registry，Schema Registry，Streaming Analytics Manager，Ambari Infra和Data Analytics Studio诊断信息。

2.活动分析

对于使用新的HDFS联邦功能的用户，每个namespace都可以使用活动数据。常用的过滤器也已全局化，以简化过滤和数据探索，现在可以看到LLAP查询。此外，还添加了三个新的活动资源管理器仪表板：作业比较，用户摘要和工作负载趋势。

3.Ambari视图

SmartSense视图包含对捕获内容的完整描述，以增强透明度并简化与安全团队的交流。

原文地址：

https://zh.hortonworks.com/blog/announcing-general-availability-hortonworks-data-platform-3-0-0-ambari-2-7-0-smartsense-1-5-0/

提示：代码块部分可以左右滑动查看噢

为天地立心，为生民立命，为往圣继绝学，为万世开太平。
温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操，第一时间，分享更多Hadoop干货，欢迎转发和分享。

Hortonworks正式发布HDP3.0_hive_07

上一篇：CDSW1.4的新功能

下一篇：如何在Kerberos环境下使用Spark2通过JDBC访问Impala

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯