在实习期间,公司使用的hue平台做的数仓,下面就简单介绍一下hue的一些使用的注意事项,主要是工作流的使用和调度

进入hue首页:

  

hive 根据小时计算秒差_java

Workflow是工作流,Schedule是调度工作流的,如设置工作流何时跑,周期是多久,等等,下面会详细介绍,Bundle是绑定多个调度,暂时我没有用上

等使用后再更新

 

hive 根据小时计算秒差_hive 根据小时计算秒差_02

上面有一栏,有hive,hive2,spark,java,shell等等,直接拖入到Drop your action here这个阴影框中即可

下面的都以hive2为例,

hive 根据小时计算秒差_hive_03

选择文件添加即可,同时下面还有很多选项

hive 根据小时计算秒差_hive 根据小时计算秒差_04

 

 友情提示,虽然已经选择了文件,但是我建议还是在选择一次,右边的是添加文件依赖,

左边是参数设置,比如工作流按时间跑,设置是时间等等,根据需求设置即可

  

hive 根据小时计算秒差_hive_05

 

工作流建立完成之后,单个脚本或者代码可以单独执行,进行测试,再右上角

或者整个工作流进行运行,也是在右上角

这是工作流的配置,下面讲调度

进入调度

hive 根据小时计算秒差_hive 根据小时计算秒差_06

选择一个workflow工作流

hive 根据小时计算秒差_java_07

hive 根据小时计算秒差_hive 根据小时计算秒差_08

注意hue,oozie是有时区的设置的,默认是零时区时间,换成东八区时间要+8小时,设置配置时间同步

由于公司没有设置,所以是在建立调度上自己注意的,这里的时间都是零时区的时间

hive 根据小时计算秒差_数据_09

可以按小时,天,周,月,年进行定时调度

 

 

hive 根据小时计算秒差_hive_10

 

 因为是今天跑昨天的数据,所以数据是昨天的,时间要减,因为是零时区的时间和东八区的时间差了8个小时,所以减了16个小时

下面的是输入文件,起到标识作用,有了这个文件任务才能启动,也是一种依赖文件

还有一种情况

hive 根据小时计算秒差_hive 根据小时计算秒差_11

如果是周计划,或者月计划,需要依赖多个,如7个,30个文件,不可能一一配置

选择上面的range,-6代表从任务执行的是时间-6,因为时区原因,如果是星期一启动任务,则到了上周星期一,0到了上周日

这是跑周计划中依赖一周的文件,其他情况可以参考上面的,可能会一些时区或者平台的问题有一些出入,配置根据具体情况而定

 

任务运行后可以查看执行情况:

hive 根据小时计算秒差_hive 根据小时计算秒差_12

在右上角,

hive 根据小时计算秒差_hive 根据小时计算秒差_13

自己选择查看类型,里面也有日志,执行task,执行参数,时间等等