同盾大数据平台

  • 一、平台首页
  • 1.1 创建作业进行编程
  • 1.1.1 创建作业
  • 1.1.2 编码时的注意事项
  • 1.1.2.1 一定要养成及时保存文件的习惯
  • 1.1.2.2 代码的运行与日志
  • 1.1.2.3 大数据平台没有代码调试功能
  • 1.1.2.4 要写注释,但尽量避免写中文注释
  • 1.1.2.5 自定义函数及将DataFrame写入到Hive表
  • 1.1.2.6 写for循环并且嵌套层次深时要“对称”写
  • 1.1.3 申请访问他人的Hive表
  • 1.1.4 创建自己的Hive表
  • 二、发布作业
  • 三、查看作业运行情况
  • 3.1 补数据
  • 3.2 作业监控
  • 3.3 作业报警的处理
  • 四、产出报表
  • 4.1 准备数据
  • 4.2 新建数据集
  • 4.2.1 平台登录
  • 4.2.2 新建数据集
  • 4.3 新建看板
  • 4.4 新增工作表



一、平台首页

平台首页如下如图所示,从页面顶部的导航栏可以看到“数据开发”、“数据管理”、“运维中心”等子功能,点击即可跳转。由于每位同学的角色不同,他在平台所用到的功能模块也不同,所以该文档并不是按照平台的模块逐个进行介绍,而是以实际开发场景中所用功能进行介绍,即“创建作业进行编程”——“发布作业”——“查看作业运行情况”——“产出报表”的过程,其中主要涉及“数据开发”、“数据管理”、“运维中心”、“报表系统”4个子功能模块。

同盾 Android 同盾大数据平台_kafka

1.1 创建作业进行编程

进入“数据开发”后,如果是新同学,推荐点击页面左侧栏顶部右侧的菜单(下图中箭头指向的红圈位置),再次点击“创建文件夹”,然后在弹窗中仿照已有目录名进行输入,然后保存就OK了。
by the way:

  • 编程时,如果代码长,可以点击红圈上方位置,左侧栏会向左收缩,再次点击便弹出了!
  • 编程时,页面时间久了,点击左侧栏目录时可能无响应,这时点击红圈右侧的“刷新”按钮就好了!

同盾 Android 同盾大数据平台_hive_02


同盾 Android 同盾大数据平台_flink_03

1.1.1 创建作业

创建个人目录后,开始创建作业准备进行编程。如下图所示,点击目录左侧“+”展开目录,选中目录右键选择功能,这里以“创建作业”为例进行说明(其他功能都见名知意,自行探索)。

同盾 Android 同盾大数据平台_flink_04


同盾 Android 同盾大数据平台_大数据_05


在“新建作业”弹窗中点“保存”后,便自动打开该文件,界面如下图所示。

同盾 Android 同盾大数据平台_hive_06

1.1.2 编码时的注意事项

1.1.2.1 一定要养成及时保存文件的习惯

尽管在编码时平台有自动保存功能,但在编程实践中发现云桌面偶尔会“闪退”(有些时候这种情况的发生频率甚至还稍高,闪退原因未知),所以不要依赖自动保存功能,它远没有自己随手保存来的可靠!

1.1.2.2 代码的运行与日志

(1) 运行代码的快捷键,Mac本运行代码的快捷组合键是“Option + R”(非Mac本即“Alter + R”)。

(2) 在写Hql时可仅仅选中需要执行的部分代码,只执行该部分代码!(就算是某个嵌套语句中的一部分也是可以的)

(3) 在嵌套结构中查看某层Hql时,只需点击该层嵌套与左圆括号“(”之间的空白就可选中,便于查看。

(4) 代码运行后,如果在作业仍在提交状态,是不可以终止的。

同盾 Android 同盾大数据平台_flink_07


(5) 如果查看日志不方便,可点击控制台输出的日志最前面的第一个链接“View Job Instance”(如上图所示),跳转到“运维中心—作业监控”后即可查看(如下2张图所示)。

同盾 Android 同盾大数据平台_同盾 Android_08


同盾 Android 同盾大数据平台_flink_09


(6) 快速“表查询”

同盾 Android 同盾大数据平台_flink_10

1.1.2.3 大数据平台没有代码调试功能

因为没有代码调试功能,所以可能会存在代码写完后运行出错,但没有debug找错很费时的情况。所以所以所以,在写完一小段代码块时,最好直接运行一下,判断这一小部分代码是否有问题,这种增量式的写法能尽早的发现问题,不至于写完后用大量时间差错。

1.1.2.4 要写注释,但尽量避免写中文注释

写注释的好处不言而喻,但为什么要避免写中文注释呢?写中文注释本身是没问题的,但就像“一些人在纸上写完字时习惯性的点上一点”是一个道理,某些人习惯写完注释后面空格,错误往往就出现在这个小小的空格上。写完代码运行出错了,然后用大量时间在不能debug的情况下找错,但看了无数遍代码,发现数据没问题,业务逻辑也没问题,但就是莫名其妙的运行出错。
中文注释除了易出错,也会造成行距的变化,不美观,也不利于查看代码。一定要写中文注释时要注意空格的情况。
写代码时不仅要注意中文空格,也要注意中文的单引号、双引号、三引号,这些符号都容易造成程序出错而查不到错的情况!

1.1.2.5 自定义函数及将DataFrame写入到Hive表

这2个功能很常用,但鉴于新手对于spark写法不熟,所以特意拿上图作为例子,截图中代码已经实现了将DataFrame写入到Hive表的功能,此外又将其封装为一个自定义的函数

1.1.2.6 写for循环并且嵌套层次深时要“对称”写

首先第一原则时要尽可能避免写for循环去遍历某个数据结构!!!
其次,写深层嵌套的for循环时,要在写好循环头后,不要慌着直接写循环体内容,可以先用pass代替。想想要不要加标志位,可不可以先输出一些标志性的基本信息方便后续找错,要不要加break来减少调试时间等等。
再次,在找错或查看代码时,为了清晰地看到代码结构,可点击代码块开始的那行左侧的“三角形”来收起或展开代码块!

1.1.3 申请访问他人的Hive表

如下图所示,点击页面顶部导航条中的“数据管理”,在“数据查找”页面的中间靠下的红框(即“数据格式”和“我的表”中间的)内,输入Hive表名后回车进行搜索

点击搜索到的记录最后一个字段“操作”那的齿轮图表——即“申请权限”,随机弹出如图1.11所示的弹窗。

同盾 Android 同盾大数据平台_大数据_11


弹窗中,可以取消掉无需访问的字段前面的勾(一般默认全选即可,无需取消),然后在弹窗的最下方“申请理由”中输入文本,点击“确认”,再“确认”,下面等待领导的OA审批就可以了!

同盾 Android 同盾大数据平台_hive_12


可以在“数据管理”–>“我的表管理”–>“我申请的表”中查看申请的表,如图所示。

同盾 Android 同盾大数据平台_大数据_13

1.1.4 创建自己的Hive表

同盾 Android 同盾大数据平台_kafka_14


同盾 Android 同盾大数据平台_hive_15


同盾 Android 同盾大数据平台_kafka_16


Last But Not Least(其他一些小坑,想起来或者遇到新的时会不定期更新)

写监控项时一定一定一定要注意拼写是否正确,否则造成的数据问题是极难发现的!!!

跨行的代码如何写?

跨行的字符串如何写?

在Python3代码中如何写Hql语句?Hql语句嵌套层次深,如何用引号?

复制粘贴时要注意代码的对齐问题

二、发布作业

代码编辑完成后,如有需要可发布作业。不知道如何发布作业?

Step1 调度配置

点页面靠近右上角的“作业调度”,即可弹出

后续完善bizdate参数!!!

Step2 依次点击“提交”、“发布”按钮

坑点:你以为点“发布”按钮后就发布了?不,它只是跳转到发布页面而已

同盾 Android 同盾大数据平台_flink_17


Step3 跳转到“作业发布”页面

坑点:你以为点“发布”后,跳转到发布页面,看到作业都整齐的罗列成表格样式,而且没看到有按钮,就可以放心的下班回家了?

第二天来才发现作业根本没运行;因为粗心的你没看到“待发布作业”这几个不显眼的字,而且这页面里的**“发布”按钮的样式和文本一模一样**,你根本没发觉它是个按钮,得点一下才能发布!!!

同盾 Android 同盾大数据平台_kafka_18


同盾 Android 同盾大数据平台_flink_19

三、查看作业运行情况

我们要在“运维中心”中查看作业运行情况,它的首页如下图所示。

同盾 Android 同盾大数据平台_大数据_20

3.1 补数据

在某张Hive表中,可能会有“补数据”的需求。如下图所示,在“运维中心”–>“作业运维”–>“补数据”选项卡界面,填写相应信息即可实现“补数据”功能。

同盾 Android 同盾大数据平台_hive_21

3.2 作业监控

点击“运维中心”子模块,再点“作业监控”后,即可查看某个作业的运行情况。

同盾 Android 同盾大数据平台_hive_22

3.3 作业报警的处理

???

同盾 Android 同盾大数据平台_同盾 Android_23

四、产出报表

如何绘制图表呢?大致流程如下:
准备数据–>新建数据集–>新建看板–>新增工作表

注:有不清楚的地方可参阅“智策-数据可视化平台”的《使用手册》。登录平台后,在右上角的登录用户处,点“下三角”图表即可看到《使用手册》

4.1 准备数据

想要在“智策-数据可视化平台”绘制图表,第一步要准备数据。要清楚要画的图表涉及到哪些Hive表、哪些字段,为在“智策-数据可视化平台”上新建数据集做好准备。(若没有这样的Hvie表,可自行新建Hive表并用sparkSQL作业或Python作业新建按需填充数据)

4.2 新建数据集

4.2.1 平台登录

Mac连接办公内网“TONGDUN”后,如何登录“智策-数据可视化平台”?

  • Method 1: 可以直接在浏览器(推荐用Chrome)地址栏,云计算服务组成员请输入
    https://databi.tongdun.cn/#/dashboard/project/1705 访问,然后输入用户名、密码登录;
  • Method 2: 登录云桌面后,用Chrome登录“同盾大数据平台”,在顶部导航条找到“报表系统”,点击即可进入

注:推荐使用Method 2!!!

经过实践发现,直接访问“智策-数据可视化平台”时,在实时加载图表时反应慢。但从云桌面的“同盾大数据平台”的“报表系统”进入,能直接进入所属小组的项目目录,而且图表数据加载速度更快,非常节省时间!

4.2.2 新建数据集

按下图所示,点击导航条上的“数据集”,接着点“新建视图”即可跳转到下图所示的页面。

同盾 Android 同盾大数据平台_kafka_24


先按需选择数据源,然后为数据集命名,最好见名知意,以免后续绘图时不方便;

写语句时,记得在表名前加“hive.”前缀;

写完语句,可点击“预览”进行查看。

注:千万千万千万注意,Hive表的字段不要用特殊的符号(例如:编程语言、数据库的关键字和保留字!),不然在新建数据集时,就算用as关键字重命名也解决不了这个问题,只能更改表字段,非常麻烦!

同盾 Android 同盾大数据平台_大数据_25

4.3 新建看板

按下图所示,即可在某个目录下新建看板pannel!

同盾 Android 同盾大数据平台_hive_26

4.4 新增工作表

新建看板后,如上图所示,点击在看板框图右上角的“铅笔”图表,进行编辑;弹出的页面如下图所示,在其右上角,点击“新增工作表”,跳转到新页面,如图所示。

同盾 Android 同盾大数据平台_flink_27


同盾 Android 同盾大数据平台_hive_28