在实习期间,公司使用的hue平台做的数仓,下面就简单介绍一下hue的一些使用的注意事项,主要是工作流的使用和调度
进入hue首页:
Workflow是工作流,Schedule是调度工作流的,如设置工作流何时跑,周期是多久,等等,下面会详细介绍,Bundle是绑定多个调度,暂时我没有用上
等使用后再更新
上面有一栏,有hive,hive2,spark,java,shell等等,直接拖入到Drop your action here这个阴影框中即可
下面的都以hive2为例,
选择文件添加即可,同时下面还有很多选项
友情提示,虽然已经选择了文件,但是我建议还是在选择一次,右边的是添加文件依赖,
左边是参数设置,比如工作流按时间跑,设置是时间等等,根据需求设置即可
工作流建立完成之后,单个脚本或者代码可以单独执行,进行测试,再右上角
或者整个工作流进行运行,也是在右上角
这是工作流的配置,下面讲调度
进入调度
选择一个workflow工作流
注意hue,oozie是有时区的设置的,默认是零时区时间,换成东八区时间要+8小时,设置配置时间同步
由于公司没有设置,所以是在建立调度上自己注意的,这里的时间都是零时区的时间
可以按小时,天,周,月,年进行定时调度
因为是今天跑昨天的数据,所以数据是昨天的,时间要减,因为是零时区的时间和东八区的时间差了8个小时,所以减了16个小时
下面的是输入文件,起到标识作用,有了这个文件任务才能启动,也是一种依赖文件
还有一种情况
如果是周计划,或者月计划,需要依赖多个,如7个,30个文件,不可能一一配置
选择上面的range,-6代表从任务执行的是时间-6,因为时区原因,如果是星期一启动任务,则到了上周星期一,0到了上周日
这是跑周计划中依赖一周的文件,其他情况可以参考上面的,可能会一些时区或者平台的问题有一些出入,配置根据具体情况而定
任务运行后可以查看执行情况:
在右上角,
自己选择查看类型,里面也有日志,执行task,执行参数,时间等等