Hadoop连接不到主机 hadoop连接其他集群

转载

mob6454cc61981e 2023-06-14 22:29:53

文章标签 Hadoop连接不到主机 hadoop hive 大数据 Hadoop 文章分类 Hadoop 大数据

序言

1.内容介绍

本章介绍了Hadoop的综合概述、连接Hadoop集群的基本条件以及具体连接的实现步骤。

2.理论目标

了解Hadoop分布式文件系统
了解MapReduce计算框架
掌握Apache Hadoop常用的发行版本
掌握连接Hadoop的前提条件

3.实践目标

掌握连接Hadoop集群的操作

4.实践案例

连接Hadoop集群实战操作

5.内容目录

1.Hadoop简介
2.连接基本条件
3.连接主要步骤
4.连接性能优化

第1节 Hadoop简介

1. Hadoop分布式文件系统

Hadoop分布式文件系统是一种文件系统实现，类似于NTFS、EXT3、EXT4等。

名称节点（Name Node)
第二名称节点（Secondary Name Node）
数据节点（Data Node）

2. MapReduce计算框架

MapReduce计算框架是一种分布式计算模型，核心是将任务分解成小任务，由不同计算者同时参与计算，并将各个计算者的计算结果合并，得出最终结果。

3. Apache Hadoop发行版本

Hadoop在大数据领域的应用前景很大，不过因为是开源技术，实际应用过程中存在很多问题。于是出现了各种Hadoop发行版，国外目前主要是两家公司在做这项业务：Cloudera和MapR。

1.Cloudera Hadoop
2.MapR Hadoop

第2节连接基本条件

1. 连接前提条件

下面介绍连接的先决条件，对于到Hive Server的连接，必须具备以下条件之一：

Hadoop集群包含Apache Hadoop CDH3u1或更高版本的Cloudera分布，其中包括Hive 0.7.1或更高版本；Hortonworks；MapR Enterprise Edition(M5)；Amazon EMR。
对于到Hive Server 2的连接，必须具备以下条件之一：
Hadoop集群包括Apache Hadoop CDH4u1的Cloudera分布；Hortonworks HDP1.2；带有Hive 0.9+的MapR Enterprise Edition(M5)；Amazon EMR。
此外，还必须在每台运行Tableau Desktop或Tableau Server的计算机上安装正确的Hive ODBC驱动程序。

2. 安装驱动程序

对于Hive Server或Hive Server2，必须从“驱动程序”页面下载与安装Cloudera、Hortonworks、MapR或Amazon EMR ODBC驱动程序。

下载的驱动名称为：ClouderaHiveODBC64.msi
安装该驱动程序，不需要重启系统

3. 启动Hive服务

在集群中，对所有hive原数据和分区的访问都要通过Hive Metastore，启动远程metastore后，hive客户端连接metastore服务，从而可以从数据库查询到原数据信息，metastore服务端和客户端通信是通过thrift协议。
在Hadoop群集的终端界面中键入以下命令：

hive --service metastore

将Hive服务移到后台，需要键入以下命令：

nohup hive --service metastore > metastore.log 2>&1 &

Tableau连接Hadoop集群需要启动HiveServer2，在终端界面中键入以下命令：

hive --service hiveserver2 &

第3节连接主要步骤

注意：以下操作为连接Cloudera Hadoop大数据集群

1. 下载驱动

在连接Cloudera Hadoop大数据集群前，需要确保已经安装了最新的驱动程序。按照以下的步骤，安装对应的驱动程序，首先到Cloudera的官方网站下载对应的驱动，然后选择Hive ODBC的下载连接。

Hadoop连接不到主机 hadoop连接其他集群_hive

2. 安装驱动并测试驱动

驱动程序安装完毕后，需要检查一下是否可以正常连接Cloudera Hive的集群，前提是连接前需要正常启动Hadoop集群。打开电脑管理工具下的ODBC数据源，然后配置“Sample Cloudera Hive DSN”，配置完毕后，单击下方的“Test”按钮，如果测试结果显示“SUCCESS!”，说明可以正常连接Hadoop集群。

Hadoop连接不到主机 hadoop连接其他集群_hive_02

3. 连接Cloudera Hadoop

在开始页面的“连接”下面，单击“Cloudera Hadoop”选项，然后执行以下操作：

在界面中输入服务器的IP地址，服务器登录信息，包括类型、身份验证、传输类型、用户名和密码等。

Hadoop连接不到主机 hadoop连接其他集群_hadoop_03

然后单击“登录”按钮，如果出现如图所示界面，说明连接成功，否则检查前面的参数设置是否有错误。
在下拉框中选择数据库，与关系型数据库中的具体数据库名称类似，选择合适的架构查找方式，有精确、包含、开头为三种，这里我们使用精确方式，在“选择架构”文本框中，输入“default”后，单击“搜索”按钮，在正下方会出现default。
然后输入需要进行可视化分析的表名称，例如输入“user”表，再单击“搜索”按钮。
将左侧的“userinfo(default.userinfo)”拖放到画布区域，然后单击“立即更新”或“自动更新”按钮。

Hadoop连接不到主机 hadoop连接其他集群_大数据_04

第4节连接性能优化

1. 自定义SQL语句

定义SQL允许使用复杂SQL表达式作为Tableau中连接的基础。通过在自定义SQL中使用LIMIT子句，可以减小数据集以加快浏览新数据集和建立视图的速度。稍后可以移除此LIMIT子句以支持对整个数据集进行实时查询。可以轻松使用自定义SQL限制数据集大小。如果连接的是单表或多表，就可以将其切换到自定义SQL连接，并让连接对话框自动填充自定义SQL表达式，例如在自定义SQL的最后一行中添加“LIMIT 1000”，以便仅使用前1000条记录。

Hadoop连接不到主机 hadoop连接其他集群_hive_05

2. 设置“数据提取”

在处理大量数据时，Tableau数据引擎是功能强大的加速器，支持以低延迟进行临时分析。尽管Tableau数据引擎不是针对Hadoop所具有的相同标度构建的，不过它能够处理多个字段和数亿行广泛数据集。

Hadoop连接不到主机 hadoop连接其他集群_大数据_06

通过在Tableau中创建数据提取，能够通过将海量数据压缩为小很多的数据集加快数据分析速度。在创建数据提取时，我们需要在“数据提取”对话框中聚合可视维度的数据、添加筛选器、隐藏所有未使用的字段。

Hadoop连接不到主机 hadoop连接其他集群_hive_07

开始实验

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：redis发布订阅模式 java实现 redis的发布订阅功能

下一篇：Hbase储存体系综合研究 hbase存储机制

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯