前言
作为一名架构师,在带领团队进行项目开发时,笔者认为一定要遵循一个原则:能借助第三方工具解决的开发任务,尽量用工具解决,以此来减少开发量,这样不但能够提高团队的工作效率,便于项目及时交付,也能在开发人员数量一定的条件下,更容易把余下的开发工作做好,也更容易提高代码质量,提高软件的稳定性。这对于交付项目,交付合格的软件产品是有好处的。
本文探索的内容正是用kettle这个ETL工具来调用Restful API,解决数据采集的问题。这样利用成熟的开源工具通过配置参数,就能调用接口,进行数据采集,相比安排开发人员编写代码,调试,代码提交,安排人员部署,测试人员测试,管理人员代码审核……,提高的工作效率是几何级的。如有赞同笔者观点的,请点个赞,谢谢!

1 概述

kettle 中文名称叫水壶,是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。当然它也可以用来调用Restful API 来采集数据,本文讲述的就是如何用kettle 调用Restful API,采集数据。

2 控件介绍

首先介绍一下本项目中用到的组件:

※生成记录:主要设置一些ETL转换中用到的一些变量及其值。

※REST Client:访问Restful接口的控件。

※JSON input:主要是对JSON格式的数据源进行解析。

※字段选择:选择挑选ETL转换中一些字段,起到过滤的作用。

※生成随机数:生成随机数的控件。

※表输出:表输出控件是向数据库的表中写入数据的控件。

3 主要思路

基于组件REST Client 请求 Restful API ,先访问获取token的Restful API,在得到包含token的结果集后,再用组件JSON input 从中抽取token,然后再用另一个组件REST Client 携带得到的token,访问包含业务数据的Restful API,经组件字段选择过滤后,再经组件表输出,将数据写入目标数据库对应的表。

4 应用场景

在数据ETL过程中,需要调用对方接口来获取数据,并向自己的数据库中插入大量业务数据的场景。

5 准备工作

※建一个数据库,并建一个目标表,表中要包含抽取的字段。

※准备一个postman工具来配合接口测试,验证接口是否能正常调用。

以下为二个测试接口样例:

1) 获取token接口

※ URL: http://...:9080/auth/bizlogin
 ※ 请求方式:POST
 ※ 请求参数格式:JSON
 ※ 请求参数:
 {
 “username”:“134********”,
 “password”:“123456”
 }
 ※ 返回参数格式:JSON
 ※ 返回参数:
 {
 “code”:200,
 “msg”:null,
 “data”:{
 “token”:“5092db2c-f126-40bd-b699-bfcc1634d9b6”,
 “userid”:12,
 “username”:“134********”,
 }
 }

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON

2) 业务接口

※ URL: http://...:9080/biz/cocUser/userInfo?userId=12
 ※ 请求方式:GET
 ※ 请求参数格式:URL中携带请求参数
 ※ 请求参数:
 userId
 ※ 返回参数格式:JSON
 ※ 返回参数:
 {
 “code”:200,
 “msg”:“成功!”,
 “data”:{
 “userId”:11,
 “userName”:“mx”,
 “cellphoneNumber”:“134********”,
 “email”:“hel**********@126.com”,
 “createTime”:“2022-12-25 10:06:55”,
 “updateTime”:null,
 “auditing”:0,
 “status”:0
 }
 }


如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_字段_02


6 最终页面效果图

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON_03


7 操作步骤

7.1 第1步

启动spoon,新建一个转换,拖入1个生成记录,1个REST Client(命名为” REST Client获取token”),1个JSON input(命名为“JSON input_token”),1个字段选择(命名为“字段选择(token)”),再拖入一个REST Client(命名为” REST client(获取业务信息)”),再拖入一个JSON input(命名为“JSON input_userinfo”),再拖入1个字段选择(命名为“字段选择(过滤字段)”),拖入一个生成随机数,再拖入一个表输出,则完成全部控件的拖入。如图所示:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_restful_04


7.2 第2步

双击组件生成记录,然后填入下面三个参数,即前面的接口访问路径及接口参数:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_java_05


如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_postman_06

将生成记录与REST client(获取token)关联,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON_07


7.3 第3步双击组件REST Client,然后填入下面参数,见下图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_java_08


将REST client(获取token)与JSON input _token关联,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON_09


7.4 第4步

双击JSON input _token,输入如下参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_restful_10


切换到“字段”页面,并填入相应参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_postman_11


将JSON input _token 与字段选择(token)关联,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_postman_12


7.5 第5步

双击组件字段选择(token),并填入相应参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_restful_13


将字段选择(token)与REST client(获取业务信息)关联,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON_14


7.6 第6步双击组件REST client(获取业务信息),并填入相应参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_java_15


切换到Headers页面,输入Authorization 和 token,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_postman_16


将组件REST client(获取业务信息)与JSON input_userinfo关联,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_字段_17

7.7 第7步

双击组件JSON input_userinfo,并填入相应参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON_18


切换到“字段”页面,并填入相应参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_postman_19


注:如果上面图片看不太清楚,请参考下面例子,路径的输入要正确:
名称:userId 路径:$…data.userId 类型 :integer
将JSON input_userinfo 与字段选择(过滤字段)关联,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_字段_20


7.8 第8步

双击组件字段选择(过滤字段),并填入相应参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON_21


切换到元数据页面,并输入相应参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON_22

将字段选择(过滤字段)与生成随机数关联,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_字段_23


7.9 第9步双击组件生成随机数,并输入相应参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON_24


将组件生成随机数与组件表输出关联,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_restful_25


7.10 第10步

双击组件表输出,并填入相应参数,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_JSON_26

先勾选“指定数据库字段”,并切换到“数据库字段”页面,点击“获取字段”,编辑或输入相应参数(注:要区分表字段和流字段),如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_字段_27


7.11 第11步

点击运行转换按钮,运行后,各个节点均绿色并打钩状态,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_restful_28


打开数据库对应的表,发现数据已导入,如图:

kettle通过java代码获取接口数据 kettle调用别人接口获取数据_java_29


至此,经过上面的11个步骤,完成了kettle对Restful API的调用。