Apache Zeppelin

是一个让交互式数据分析变得可行的基于网页的开源框架。
​​​Zeppelin​​​提供了数据分析、数据可视化等功能。
​​​Zeppelin​​​ 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 ​​Scala​​​(使用 ​​Apache Spark​​​)、​​Python​​​(​​Apache Spark​​​)、​​SparkSQL​​​、 ​​Hive​​​、 ​​Markdown​​​、​​Shell​​等等。

一、下载文件

​http://zeppelin.apache.org/download.html​​​ 我这里选用的版本如下:​​zeppelin-0.8.1-bin-all.tgz​

安装zeppelin_大数据


选择第一个安装包

二、上传解压

上传下载好的压缩文件到linux进行解压,博主此处上传位置为/opt/software
进入目录解压

cd /opt/software
tar -zvxf zeppelin-0.8.1-bin-all.tgz -C /opt/install

解压后进入目录

cd /opt/install/zeppelin-0.8.1-bin-all/

三、修改配置文件

进入conf目录下,进行配置文件修改
1.修改zeppelin-site.xml

[root@nodefour zeppelin-0.8.1-bin-all]# cd conf/
[root@nodefour conf]# cp zeppelin-site.xml.template zeppelin-site.xml
[root@nodefour conf]# ll
总用量 80
-rw-r--r-- 1 503 wheel 1326 1月 16 2019 configuration.xsl
-rw-r--r-- 1 503 wheel 2634 1月 16 2019 interpreter-list
-rw-r--r-- 1 503 wheel 1382 1月 16 2019 log4j.properties
-rw-r--r-- 1 503 wheel 1018 1月 16 2019 log4j_yarn_cluster.properties
-rw-r--r-- 1 503 wheel 5342 1月 16 2019 shiro.ini.template
-rw-r--r-- 1 503 wheel 5799 1月 16 2019 zeppelin-env.cmd.template
-rw-r--r-- 1 503 wheel 7910 1月 16 2019 zeppelin-env.sh.template
-rwxr-xr-x 1 root root 20017 12月 12 17:38 zeppelin-site.xml
-rwxr-xr-x 1 503 wheel 20017 1月 16 2019 zeppelin-site.xml.template

修改端口号:默认是8080,为避免冲突,修改为其他端口号,这里修改为8000

[root@nodefour conf]# vi zeppelin-site.xml

安装zeppelin_大数据_02


2.修改zeppelin-env.sh

复制并重命名配置文件

[root@nodefour conf]# cp zeppelin-env.sh.template  zeppelin-env.sh

查看自己的jdk路径

[root@nodefour ~]# echo $JAVA_HOME
/root/software/jdk-11.0.8

编辑

vi zeppelin-env.sh

内容如下

export JAVA_HOME=/root/software/jdk-11.0.8

export HADOOP_CONF_DIR=/opt/install/hadoop/etc/hadoop

安装zeppelin_hadoop_03

四、启动zeppelin

[root@nodefour conf]# cd ../bin/
[root@nodefour bin]# ./zeppelin-daemon.sh start
Log dir doesn't exist, create /opt/install/zeppelin-0.8.1-bin-all/logs
Pid dir doesn't exist, create /opt/install/zeppelin-0.8.1-bin-all/run
Zeppelin start [ OK ]
[root@nodefour bin]#

访问主机ip(或映射地址):8000(刚刚设置的端口号)

此处博主访问地址为​​http://192.168.202.204:8000/#/​

安装zeppelin_大数据_04


注意:第一次启动后网页访问可能需要等待一段时间。

关闭zeppelin服务

可以通过​​./zeppelin-daemon.sh stop​

五、配置hive解释器

Zeppelin中没有默认的hive解释器,但是我们可以通过jdbc解释器进行添加。
1.环境和jar包准备
(1)拷贝hive的配置文件​​​hive-site.xml​​​到​​zeppelin-0.8.1-bin-all/conf​​下。

cp /opt/install/hive/conf/hive-site.xml /opt/install/zeppelin-0.8.1-bin-all/conf/

(2)拷贝jar包
拷贝下面两个jar包到​​​zeppelin​​​安装目录下​​interperter​​中。(版本根据自己安装版本来确定)

hadoop-common-2.6.0.jar
hive-jdbc-1.1.0-cdh5.14.2-standalone.jar

(如果装的cdh版本的,jar包中有cdh版本号)

[root@nodefour conf]# cp /opt/install/hadoop/share/hadoop/common/hadoop-common-2.6.0-cdh5.14.2.jar /opt/install/zeppelin-0.8.1-bin-all/interpreter/jdbc/
[root@nodefour conf]# cp /opt/install/hive/lib/hive-jdbc-1.1.0-cdh5.14.2-standalone.jar /opt/install/zeppelin-0.8.1-bin-all/interpreter/jdbc/

2 在web界面配置集成hive

(1)右上角​​anonymous --> interpreter --> +Create​​​新建一个叫做​​hive​​的集成环境

安装zeppelin_hive_05

(2)设置properties

default.driver   org.apache.hive.jdbc.HiveDriver
default.url jdbc:hive2://hadoop101:10000
default.user root(根据自己的用户名来定)

点击保存,并重启hive 解释器。

(3)后台启动和hiveserver2
在linux中启动hiveserver2服务

nohup hive --service hiveserver2 &

六、使用Zeppelin的hive解释器

在zeppelin中,点击​​notebook​​,通过create new note创建一个notebook.

其中name可以任意,​​Default Interpreter​​​(默认解释器)选择​​hive​​.

安装zeppelin_大数据_06

验证hive解释器(注意,zeppelin中操作hive不能有分号)

%hive
show databases

注:如果在创建New Note的时候,选择的​​Default Interpreter​​​为​​hive​​,可以不用通过%hive的方式引用hive解释器,因为默认会使用hive解释器。

安装zeppelin_xml_07