kettle连接hiveGSS启动失败 kettle连接gbase

关注 mob64ca13f83523

kettle连接hiveGSS启动失败 kettle连接gbase

转载

mob64ca13f83523 2024-01-10 13:06:55

文章标签 kettle连接hiveGSS启动失败 kettle Hadoop hadoop xml 文章分类 Hive 大数据

说明：

环境：Centos7 + Kettle8.2 + hbase-1.3.1 + zookeeper-3.4.5

目标：通过Kettle将本地文件抽取到hbase中

一、HBase安装

安装hbase需要先安装zookeeper，故按照如下步骤进行环境搭建：

1.1 zookeeper单机安装

请参考博客中其他的博文：

1.2 HBase安装

需要将hadoop启动起来(如果已经启动了，就不需要执行这个命令)：

start-all.sh

上传hbase-1.3.1-bin.tar.gz到/tools目录下

将hbase-1.3.1-bin.tar.gz文件解压并安装到/training目录下

tar -zvxf hbase-1.3.1-bin.tar.gz -C /training/

配置环境变量

vi ~/.bash_profile

在打开的.bash_profile文件中添加如下信息：

export HBASE_HOME=/training/hbase-1.3.1

export PATH=$HBASE_HOME/bin:$PATH

让环境变量生效

source ~/.bash_profile

验证配置hbase的环境变量是否生效,执行：

hbase

看看是否有Usage: hbase [] []信息，如果有则生效了，否则，配置有误

进入到/training/hbase-1.3.1/conf目录下

cd /training/hbase-1.3.1/conf

修改hbase-env.sh文件

vi hbase-env.sh

修改JAVA_HOME为用户安装的jdk路径

export JAVA_HOME=/training/jdk1.8.0_171

找到# export HBASE_MANAGES_ZK=true 将#号去掉即可

修改hbase-site.xml

vi hbase-site.xml

在configuration节点之间添加如下信息，注意下面的有IP的地址需要修改成你自己主机的IP地址或者主机名，具体如下

<property>

<name>hbase.rootdir</name>

<value>hdfs://hadoop001:9000/hbase</value>

</property>

<property>

<name>hbase.cluster.distributed</name>

<value>true</value>

</property>

<property>

<name>hbase.zookeeper.quorum</name>

<value>hadoop001</value>

</property>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

修改regionservers，配置从节点地址（伪分布只有一台主机，所以配置一个即可）：将localhost改成IP地址或者主机名。

启动HBase：

start-hbase.sh

使用jps命令查看，是否已经启动了如下两个进程

HRegionServer

HMaster

登录Web Console进程查看： http://hadoop001:16010

kettle连接hiveGSS启动失败 kettle连接gbase_kettle连接hiveGSS启动失败

1.3 创建weblogs表，列族为pageviews

在hbase shell 中创建表，执行如下命令：

create 'weblogs', 'pageviews'

二、Kettle配置

将配置好的hbase-site.xml文件下载到kettle的安装目录下,如下图所示：

kettle连接hiveGSS启动失败 kettle连接gbase_hadoop_02

重启Kettle

三、案例演示

3.1 功能描述

将本地文件抽取到HBase中

3.2 测试数据

kettle连接hiveGSS启动失败 kettle连接gbase_xml_03

3.3 组件实现

kettle连接hiveGSS启动失败 kettle连接gbase_kettle连接hiveGSS启动失败_04

选择输入组件为文本文件输入

选择输出组件为HBase Output

配置输入组件,双击输入组件，配置如下所示：

选择测试数据所在位置，浏览->增加，

kettle连接hiveGSS启动失败 kettle连接gbase_xml_05

kettle连接hiveGSS启动失败 kettle连接gbase_xml_06

kettle连接hiveGSS启动失败 kettle连接gbase_Hadoop_07

5. 配置hadoop集群，如下图，双击HBase Output组件，弹窗如下：

kettle连接hiveGSS启动失败 kettle连接gbase_kettle_08

6. 配置输出组件HBase Output，配置如下图：

kettle连接hiveGSS启动失败 kettle连接gbase_hadoop_09

kettle连接hiveGSS启动失败 kettle连接gbase_kettle_10

kettle连接hiveGSS启动失败 kettle连接gbase_kettle连接hiveGSS启动失败_11

HBase中多出一张映射表

kettle连接hiveGSS启动失败 kettle连接gbase_Hadoop_12

在上面的弹窗截图中切换到Configure connection 进行如下配置，配置完后一定注意保存一下：

kettle连接hiveGSS启动失败 kettle连接gbase_xml_13

3.4 运行验证

kettle连接hiveGSS启动失败 kettle连接gbase_kettle连接hiveGSS启动失败_14

1、运行

2、查看控制台：

kettle连接hiveGSS启动失败 kettle连接gbase_hadoop_15

kettle连接hiveGSS启动失败 kettle连接gbase_xml_16

3、查看hbase数据库中的数据

kettle连接hiveGSS启动失败 kettle连接gbase_kettle连接hiveGSS启动失败_17

案例2：kettle连hbase

设置Hadoop环境
在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。

复制 hbase-site.xml 文件
从hbase集群中复制 hbase-site.xml 文件到 kettle 安装目录下的 “plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25” 目录下。

准备数据表
这里准备测试从一个hbase表导数据到另一个hbase表，其实往别存储介质也都是类似，比如文件，数据库。这里主要是为了说明怎样连hbase。

这里使用两个表，user和user2，测试从user表导数据到user2表。

# 启动shell
$ bin/hbase shell

################################################################################
# 创建 user 表

# 创建 user 表，其中包括两个列族 base 和 address。
# base列族用来保存用户基本信息，username和password
# address列族用来保存家庭和办公地址
> create 'user', 'base', 'address'

# 向 user 表写入数据
> put 'user', 'row1', 'base:username', 'user1'
> put 'user', 'row1', 'base:password', 'user1'
> put 'user', 'row1', 'address:home', 'user1 home'
> put 'user', 'row1', 'address:office', 'user1 office'

> put 'user', 'row2', 'base:username', 'user2'
> put 'user', 'row2', 'base:password', 'user2'
> put 'user', 'row2', 'address:home', 'user2 home'
> put 'user', 'row2', 'address:office', 'user2 office'

################################################################################
# 创建 user2 表
> create 'user', 'base', 'address'

测试导入
添加一个Transformations。
在 View -> Transformations -> Hadoop clusters 添加一个新的 Hadoop 集群。配置大致如下：（修改后可以测试一下）
Cluster Name: myhdfs
Storage: HDFS
HDFS: (可以参考core-site.xml文件)
Hostname: <ip>
Port: 8020
Username: <user>
Password: <password>
JobTracker:
Hostname: <ip>
Port: 8032
Zookeeper:
Hostname: <ip>
Port: 2181

在工作区，拖拽一个 “HBase Input” 和 “HBase Output”，并建立关联。
设置 “HBase Input”
首先在 “Configure query” 中设置 “Hadoop Cluster”。
在 “Create/Edit mappings” 中 “HBase table name” 选择 user。
在 “Create/Edit mappings” 中 “Mapping name” 输入 user_mapping。
在 “Create/Edit mappings” 中表格中定义下面几项，然后 “Save mapping”
Alias Key Column family Column Type
ROW Y String
username N base username String
password N base password String
home N address home String
office N address office String

回到 “Configure query”，HBase table name” 选择 user， “Mapping name” 选择 user_mapping。
设置 “HBase Output
首先在 “Configure query” 中设置 “Hadoop Cluster”。
在 “Create/Edit mappings” 中 “HBase table name” 选择 user2。
在 “Create/Edit mappings” 中 “Mapping name” 输入 user2_mapping。
在 “Create/Edit mappings” 中表格中定义下面几项，然后 “Save mapping”
Alias Key Column family Column Type
ROW Y String
username N base username String
password N base password String
home N address home String
office N address office String

回到 “Configure query”，HBase table name” 选择 user2， “Mapping name” 选择 user2_mapping。
运行Transformations，然后检查结果。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python动态规划迷宫 python 动态规划旅行商问题

下一篇：swift 中使用 DispatchGroup swift describing

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册