软件环境
- Hadoop: 2.7+, 3.1+ (since v2.5)
- Hive: 0.13 - 1.2.1+
- HBase: 1.1+, 2.0 (since v2.5)
- Spark (optional) 2.3.0+
- Kafka (optional) 1.0.0+ (since v2.5)
- JDK: 1.8+ (since v2.5)
- OS: Linux only, CentOS 6.5+ or Ubuntu 16.0.4+
硬件要求
运行Kylin的服务器的最低配置是4核CPU,16 GB RAM和100 GB磁盘。对于高负载情况,建议使用24核CPU,64 GB RAM或更高。
Hadoop环境
Kylin依靠Hadoop集群来处理大型数据集。您需要准备一个Hadoop集群,其中包含HDFS,YARN,MapReduce,Hive,HBase,Zookeeper和其他服务,以便Kylin运行。
Kylin可以在Hadoop集群中的任何节点上启动。为方便起见,您可以在主节点上运行Kylin。为了获得更好的稳定性,建议与配置单元,HBase的,HDFS和安装的其他命令行和客户端配置(如干净的Hadoop客户端节点上部署麒麟core-site.xml
,hive-site.xml
,hbase-site.xml
及其他)也被合理地配置,并且可以与其他节点被自动同步。
运行Kylin的Linux帐户必须能够访问Hadoop集群,包括创建/写入HDFS文件夹,Hive表,HBase表以及提交MapReduce任务的权限。
Kylin安装
- 从Apache Kylin下载站点下载 Hadoop版本的二进制包。例如,可以从以下命令行下载Kylin 2.5.0 for HBase 1.x:
cd /usr/local/
wget http://mirror.bit.edu.cn/apache/kylin/apache-kylin-2.5.0/apache-kylin-2.5.0-bin-hbase1x.tar.gz
- 解压缩tarball并将环境变量配置
$KYLIN_HOME
为Kylin文件夹。
tar -zxvf apache-kylin-2.5.0-bin-hbase1x.tar.gz
cd apache-kylin-2.5.0-bin-hbase1x
export KYLIN_HOME=`pwd`
从v2.6.1起,Kylin将不再发布Spark二进制文件; 您需要单独安装Spark,然后将SPARK_HOME
系统环境变量指向它:
export SPARK_HOME=/path/to/spark
或运行脚本下载它:
$KYLIN_HOME/bin/download-spark.sh
Kylin 目录结构
-
bin
:用于启动/停止Kylin服务,备份/恢复元数据以及一些实用程序脚本的shell脚本。 -
conf
:XML配置文件。可以在配置页面中找到这些xml文件的功能 -
lib
:外部使用的Kylin jar文件,如Hadoop作业jar,JDBC驱动程序,HBase协处理器jar等。 -
meta_backups
:运行“bin / metastore.sh backup”时的默认备份文件夹; -
sample_cube
:用于创建示例多维数据集及其表的文件。 -
spark
:使用Kylin构建的默认spark二进制文件。 -
tomcat
运行Kylin应用程序的tomcat Web服务器。 -
tool
:用于运行实用程序CLI的jar文件。
检查操作环境
Kylin在Hadoop集群上运行,对每个组件的版本,访问权限和CLASSPATH有一定的要求。为了避免各种环境问题,您可以运行脚本,$KYLIN_HOME/bin/check-env.sh
对您的环境进行测试,如果您的环境有任何问题,脚本将打印详细的错误消息。如果没有错误消息,则表示您的环境适合运行Kylin。
[root@bj-hadoop006 apache-kylin-2.5.0-bin-hbase1x]# bin/check-env.sh
Retrieving hadoop conf dir...
KYLIN_HOME is set to /data/apache-kylin-2.5.0-bin-hbase1x
开始Kylin
运行脚本,$KYLIN_HOME/bin/kylin.sh start
启动Kylin。界面输出如下:
Retrieving hadoop conf dir...
KYLIN_HOME is set to /usr/local/apache-kylin-2.5.0-bin-hbase1x
......
A new Kylin instance is started by root. To stop it, run 'kylin.sh stop'
Check the log at /usr/local/apache-kylin-2.5.0-bin-hbase1x/logs/kylin.log
Web UI is at http://<hostname>:7070/kylin
使用Kylin
启动Kylin后,您可以通过浏览器访问它,http://<hostname>:7070/kylin
并
指定<hostname>
IP地址或域名,默认端口为7070.
初始用户名和密码为 ADMIN/KYLIN
服务器启动后,您可以查看运行时日志$KYLIN_HOME/logs/kylin.log
。
停止Kylin
运行$KYLIN_HOME/bin/kylin.sh stop
脚本以停止Kylin。控制台输出如下:
Retrieving hadoop conf dir...
KYLIN_HOME is set to /usr/local/apache-kylin-2.5.0-bin-hbase1x
Stopping Kylin: 25964
Stopping in progress. Will check after 2 secs again...
Kylin with pid 25964 has been stopped.
您可以运行ps -ef | grep kylin
以查看Kylin进程是否已停止。
HDFS文件夹结构
Kylin将在HDFS上生成文件。根文件夹是“/kylin/”,但是每个Kylin集群都有第二级文件夹,以元数据表名称命名,默认情况下是“kylin_metadata”(可以自定义conf/kylin.properties
)。
通常情况下,至少有这四种类型的目录下/kylin/kylin_metadata
:cardinality
,coprocessor
,kylin-job_id
,resources
。
1. cardinality
:当Kylin加载配置单元表的基数计算作业的输出文件夹。无工作时可以清理;
2 . coprocessor
: Kylin把HBase协处理器jar文件放到的文件夹。请不要删除它。
3 . kylin-job_id
: Cubing作业的输出文件夹。请保留它们; 如果需要清理,请按照存储清理指南进行操作。
4 . resources
:在HBase中持续存在的元数据条目太大(例如,字典或表快照); 请不要删除它; 如果需要清理,请遵循元数据
5中的清理资源。jdbc-resources
:类似于resources
,仅在使用MySQL作为元数据存储时出现。