目录

前言

一、违规教育信息

1、内容管理 

2、转换后的内容

二、数据库设计

1、空间数据库

三、字符地址位置转换空间信息

1、实现时序图

2、后台实体类的设计与实现

3、数据持久化操作

 四、总结


前言

        时间来到2024年8月24日,时间过得很快,2024年的暑假即将结束。神兽们该归笼了,各位家长们又是辛苦的照顾两个月。在这两个月的时间中,大家一定参加过不少的教育培训,中学的也好,小学的也好。一定有很多的家长在给家里的小朋友找了很多机构进行培训。先不说培训机构的培训能力怎么样,相信大家一定很关注哪些是违规培训。以博主所在的城市为例,关于违规培训有以下的定义:

凡是在周末、寒暑假、节假日开展义务教育学科培训的机构(个人)均为违规培训;凡是没有办学许可证的开展校外培训的机构均为违规培训机构。校外培训机构一次性不得收取超过三个月或60个课时的费用,非学科类培训机构一次性收费不得超过5000元。请广大家长知晓,如遇到违规培训或者违规收费,可以进行投诉举报。

        根据市教育局的通知和工作要求,在今年整个暑假期间,监管不松懈!暑假以来,全市各区县(市)共出动多次,拆除违规广告牌若干处,下发停办或者整改通知书若干份。共查处违规培训行为,其中隐形变异学科培训25起,无证非学科类培训14起,有证机构违规办学2起。希望我们广大的家长在挑选培训机构的时候,可以选择正规的机构,不仅保证我们的培训质量,同时还可能引起财产的损失。

        作为一名地理信息从业者,我们可以将这些违规商家的信息搜集起来,可以整理成一个信息的黄页,在家长需要进行信息查询的时候,就知道这些机构是需要注意的。这也是为人民服务了,当然,有教育需求的地方才会有较多的培训结构。因此,通过我们的地址编码,将地名地址转换成空间位置,我们进而可以分析出,该城市的教培空间分布模式,掌握教育分布情况。也可以优化相应的教育配套,引导更优质的教育培训机构入驻,为家长和学生提供优质的教育需求。

        本文以Java语言为例,将市教育局发布的违规培训名单进行集中采集,将数据集中存储。可以将这些数据进行统一分析,为下一步的空间分析和使用分布模型的建立,甚至后续的空间图谱构建奠定一个坚实的基础。通过本文,您将掌握如何进行数据的高效写入,同时进行地理编码的转换,以及相关空间表的设计。

一、违规教育信息

        首先我们来介绍一下市教育局公布的违规教育信息,这里的数据来源于长沙晚报掌上长沙,41起!长沙通报暑期第二批违规培训名单。大家可以看到这是8月7日公布的一个名单。

使用Java进行中小学违规教育培训数据采集实践-以某城市为例_违规教育数据处理

1、内容管理 

        上面的表格仅展示了隐形变异学科培训列表,在表格中包含了机构名称、机构地址、备注信息等重要信息。请注意,上面的信息是存储在图片的表格中,因此我们不能直接的使用抓取工具来进行的获取。当然,在上面这种信息量不是很多的情况下,我们可以直接进行人工手动录入,毕竟数据量也是有限。本文呢,暂时用这种手工处理的模式。更加智能的方式是进行OCR识别,当然这里的OCR识别,需要识别出表格,而不是按照文本的顺序按空格输出,这样拿到的数据也是不符合需要的。要实现这种表格的识别,得加上OpenCV等组件进行学习或者深度学习来识别表格外框,再结合COR的外框来进行精准识别。关于利用OpenCV来进行表格识别的内容,暂且不表。

2、转换后的内容

        在明确数据的采集之后,我们可以利用微信或者一些在线工具,把下载的图片进行在线识别,将数据转换成Excel,也可以一行行的录入相关数据。最后可以得到下面的Excel表格。

序号

名称

地址

备注

时间

类型

来源

1

唐*

湘江新区奥克斯中央公馆9栋308房

2024-08-07

隐形变异学科培训

长沙晚报

2

王*源

湘江新区水岸御园12栋3001

2024-08-07

隐形变异学科培训

长沙晚报

3

宏科教育(郑**)

湘江新区长房时代城5栋1001、1005

2024-08-07

隐形变异学科培训

长沙晚报

4

刘*爱

湘江新区合能璞丽10栋204、205

2024-08-07

隐形变异学科培训

长沙晚报

5

100分之道(丁*)

湘江新区金茂悦商铺10-114

2024-08-07

隐形变异学科培训

长沙晚报

6

宏科教育(郑**)

湘江新区钰龙一期1栋1单元1502

2024-08-07

隐形变异学科培训

长沙晚报

7

幸福成长教育(聂*)

湘江新区德润园商业街9栋2楼

2024-08-07

隐形变异学科培训

长沙晚报

8

尹*骥

湘江新区望月湖小区9片17栋1单元104

2024-08-07

隐形变异学科培训

长沙晚报

9

彭*

芙蓉区芙蓉路中隆国际大厦905号

2024-08-07

隐形变异学科培训

长沙晚报

10

华斯优学(吴**)

芙蓉区荷花园街道蔚蓝天空大厦6楼左侧

以托管机构名义变相开展学科培训

2024-08-07

隐形变异学科培训

长沙晚报

11

尹*妮

芙蓉区荷花园街道蔚蓝天空大厦6楼左侧

个人租用华斯优学场地变相开展学科培训

2024-08-07

隐形变异学科培训

长沙晚报

12

刘*艳

天心区君尚嘉筑2栋903

2024-08-07

隐形变异学科培训

长沙晚报

13

陈*杰

天心区汇金国际银座509

2024-08-07

隐形变异学科培训

长沙晚报

14

廖*

天心区汇金国际银座2710

2024-08-07

隐形变异学科培训

长沙晚报

15

慧眼物理(王*)

开福区伍家岭街道红色商贸城E4栋二楼左边户

2024-08-07

隐形变异学科培训

长沙晚报

16

无名

雨花区侯家塘街道东尚一品A栋1502房

2024-08-07

隐形变异学科培训

长沙晚报

17

陆*雄

雨花区左家塘街道鸿铭中心K座501、502

2024-08-07

隐形变异学科培训

长沙晚报

18

闪光教育(李*)

雨花区洞井街道鄱阳佳郡3栋1单元302、502房

2024-08-07

隐形变异学科培训

长沙晚报

19

莘莘教育(匡**)

雨花区井湾子街道万科金色麦田3栋1604-1605室

2024-08-07

隐形变异学科培训

长沙晚报

20

尹*里

雨花区井湾子街道万科金色麦田3栋1609-1610室

2024-08-07

隐形变异学科培训

长沙晚报

21

长沙瀚铭智能科技有限公司

雨花区井湾子街道号万科金色麦田商业4栋221房

组织介绍上门家教变相开展学科培训

2024-08-07

隐形变异学科培训

长沙晚报

22

李*民

浏阳市葛家镇葛家园村台上组11号一楼

2024-08-07

隐形变异学科培训

长沙晚报

23

余*

浏阳市荷花街道新月半岛E2栋2单元103A

2024-08-07

隐形变异学科培训

长沙晚报

24

胡*雨

浏阳市永安镇永新村桂花苑5栋5楼

2024-08-07

隐形变异学科培训

长沙晚报

25

黄*平

浏阳市集里街道东方新天地B栋一单元1003室

2024-08-07

隐形变异学科培训

长沙晚报

26

准者联盟少儿篮球培训(龚*)

湘江新区枫林三路741号骑龙花园

2024-08-07

无证非学科类培训

长沙晚报

27

青蒙艺术(郭**)

湘江新区金山桥街道元拓秀街S5栋324

2024-08-07

无证非学科类培训

长沙晚报

28

湖南全华体育发展有限公司

芙蓉区东岸街道天园假日小区羽毛球馆三楼

2024-08-07

无证非学科类培训

长沙晚报

29

劲狮学堂(刘*)

开福区四方坪街道左岸春天会所一楼

2024-08-07

无证非学科类培训

长沙晚报

30

柯科书画(高*)

开福区四方坪街道万富汇银座1324室

2024-08-07

无证非学科类培训

长沙晚报

31

菲菲舞蹈(龙**)

开福区青竹湖街道水映加州运动会所2楼

2024-08-07

无证非学科类培训

长沙晚报

32

长沙雅田教育咨询有限公司

开福区芙蓉北路街道芙蓉北路和凤亭路交汇处西南角

2024-08-07

无证非学科类培训

长沙晚报

33

美美希舞蹈(蔡*)

开福区芙蓉北路街道富湾际5栋2001室

2024-08-07

无证非学科类培训

长沙晚报

34

mozare琴行(黄*)

开福区洪山街道恒大雅苑7-9栋120-121

2024-08-07

无证非学科类培训

长沙晚报

35

优优钢琴(庞*)

开福区洪山街道月湖兰庭5栋2单元16楼

2024-08-07

无证非学科类培训

长沙晚报

36

长沙市雨花区半音阶乐器经营部

雨花区古曲南路199号花中城20-106

2024-08-07

无证非学科类培训

长沙晚报

37

长沙县星沙晨艺希工艺美术品店

长沙县星沙街道开元东路深业睿城三期G3栋13楼

2024-08-07

无证非学科类培训

长沙晚报

38

长沙县墨绿红画室

长沙县泉塘街道康桥长郡1栋201

2024-08-07

无证非学科类培训

长沙晚报

39

彭*

浏阳市葛家镇葛家园村马家湾137号二楼

2024-08-07

无证非学科类培训

长沙晚报

40

浏阳市优而尚学培训学校

浏阳市优而尚学培训学校

高中学科类培训机构超范围对义务教育学生进行学科类培训

2024-08-07

有证机构违规办学

长沙晚报

41

浏阳市快乐嘟嘟培训中心有限公司

浏阳市快乐嘟嘟培训中心有限公司

非学科类培训机构超范围对义务教育学生进行学科培训

2024-08-07

有证机构违规办学

长沙晚报

        在拿到上面的数据之后,我们就可以实现相关的数据存储,为了在下一步进行空间热力图和空间分布的查看,我们需要将这些拿到的中文地址转换成经纬度坐标,然后存储到数据库中。

二、数据库设计

        在明确了元数据的各项指标之后,我们就可以进行存储的表设计,这里我们采用PostGIS来存储,将直接存储上面采集到的元数据信息,同时还会调用天地图的相关接口,实现地理编码的解析以及空间信息的存储。因此本小节来讲一下数据库的设计。

1、空间数据库

使用Java进行中小学违规教育培训数据采集实践-以某城市为例_数据_02

这是上述业务表的字段信息,其DDL语句和索引的设定如下SQL所示,大家可以直接复制使用:

CREATE TABLE "public"."biz_violation_training" (
  "id" int8 NOT NULL,
  "name" varchar(255) COLLATE "pg_catalog"."default" NOT NULL,
  "address" varchar(512) COLLATE "pg_catalog"."default" NOT NULL,
  "remark" varchar(255) COLLATE "pg_catalog"."default",
  "publish_date" timestamp(6) NOT NULL,
  "type" varchar(128) COLLATE "pg_catalog"."default",
  "source" varchar(64) COLLATE "pg_catalog"."default",
  "lat" varchar(32) COLLATE "pg_catalog"."default",
  "lon" varchar(32) COLLATE "pg_catalog"."default",
  "geom" "public"."geometry",
  "create_by" int8,
  "create_time" timestamp(6),
  "update_by" int8,
  "update_time" timestamp(6),
  CONSTRAINT "pk_biz_violation_training" PRIMARY KEY ("id")
);
CREATE INDEX "idx_biz_violation_training_sour" ON "public"."biz_violation_training" USING btree (
  "source" COLLATE "pg_catalog"."default" "pg_catalog"."text_ops" ASC NULLS LAST
);
CREATE INDEX "idx_biz_violation_training_type" ON "public"."biz_violation_training" USING btree (
  "type" COLLATE "pg_catalog"."default" "pg_catalog"."text_ops" ASC NULLS LAST
);
CREATE INDEX "idx_biz_violation_traning_geom" ON "public"."biz_violation_training" USING gist (
  "geom" "public"."gist_geometry_ops_2d"
);

COMMENT ON COLUMN "public"."biz_violation_training"."id" IS '主键';
COMMENT ON COLUMN "public"."biz_violation_training"."name" IS '机构名称';
COMMENT ON COLUMN "public"."biz_violation_training"."address" IS '地址';
COMMENT ON COLUMN "public"."biz_violation_training"."remark" IS '备注';
COMMENT ON COLUMN "public"."biz_violation_training"."publish_date" IS '发布时间';
COMMENT ON COLUMN "public"."biz_violation_training"."type" IS '类型';
COMMENT ON COLUMN "public"."biz_violation_training"."source" IS '来源';
COMMENT ON COLUMN "public"."biz_violation_training"."lat" IS '纬度';
COMMENT ON COLUMN "public"."biz_violation_training"."lon" IS '经度';
COMMENT ON COLUMN "public"."biz_violation_training"."geom" IS '位置';
COMMENT ON COLUMN "public"."biz_violation_training"."create_by" IS '创建人';
COMMENT ON COLUMN "public"."biz_violation_training"."create_time" IS '创建时间';
COMMENT ON COLUMN "public"."biz_violation_training"."update_by" IS '更新人';
COMMENT ON COLUMN "public"."biz_violation_training"."update_time" IS '更新时间';

三、字符地址位置转换空间信息

        在了解数据源,还有空间数据表的相关设计之后,我们要实现从Excel数据表中,将信息表格提取出来,然后调用天地图的API接口将地址转换成坐标,最后见Geometry信息,从而实现信息的保存。

1、实现时序图

        下面使用转换时序图来重点讲解一下真个过程是如何实现。首先讲解时序图,然后将给出重点步骤的代码实现。

使用Java进行中小学违规教育培训数据采集实践-以某城市为例_数据_03

 1.1、首先使用java的file对象将Excel表格读取到内存中,等待处理。

 1.2、使用ExcelUtil来进行数据的读取。

 1.3、实际将表格导入的内存中,然后将结果转为List。

 1.4、将地名地址信息发送给后台,将地名地址传给天地图。

 1.5、将点地图返回的数据进行JSON解析,转换为Java对象,从而获取Location等地址信息。

 1.6、根据返回的地址信息构建Geometry的字段信息。

 1.7、将Excel表格中的数据进行重新赋值。

 1.8、将数据进行批量插入到数据库中。

 1.9、完成。

        以上就是大致的处理的流程。

2、后台实体类的设计与实现

        后台实体类的模型设计很重要,为了在数据中可以直观的看到经纬度信息,因此在数据库表格中设计两个字段,用来存储经纬度信息。

package com.yelang.project.education.domain;
import java.io.Serializable;
import java.util.Date;
import com.baomidou.mybatisplus.annotation.TableField;
import com.baomidou.mybatisplus.annotation.TableId;
import com.baomidou.mybatisplus.annotation.TableName;
import com.yelang.framework.aspectj.lang.annotation.Excel;
import com.yelang.framework.handler.PgGeometryTypeHandler;
import com.yelang.framework.web.domain.BaseEntity;
import lombok.AllArgsConstructor;
import lombok.Getter;
import lombok.NoArgsConstructor;
import lombok.Setter;
import lombok.ToString;
/**
 * 违规办学培训实体类
 * @author 夜郎king
 */
@TableName(value ="biz_violation_training",autoResultMap = true)
@NoArgsConstructor
@AllArgsConstructor
@Setter
@Getter
@ToString
public class ViolationTraining extends BaseEntity implements Serializable{
	private static final long serialVersionUID = 879828674200308872L;
	@TableId(value="id")
	private Long id;
	@Excel(name = "序号")
	@TableField(exist = false)
	private String index;
	@Excel(name = "名称")
	private String name;
	@Excel(name = "地址")
	private String address;
	@Excel(name = "备注")
	private String remark;
	@Excel(name = "时间",dateFormat = "yyyy-MM-dd")
	@TableField(value= "publish_date")
	private Date date;
	@Excel(name = "类型")
	private String type;
	@Excel(name = "来源")
	private String source;
	private String lat;//经度
	private String lon;//纬度
	@TableField(typeHandler = PgGeometryTypeHandler.class)
	private String geom;
	@TableField(exist=false)
	private String geomJson;
}

3、数据持久化操作

        定义好数据表结构和实体类代码后,我们要将数据进行持久化。这里持久化使用开源的Mybatis-plus操作。同时需要注意的是,在进行数据插入的时候,有自己来主动构建空间信息。

/**
*	 读取excel信息
*/
@Test
public void readExcelData() {
	try {
		File file = new File("C:/Users/Administrator/Desktop/违规培训.xlsx");
		FileInputStream fis = new FileInputStream(file);
		ExcelUtil<ViolationTraining> util = new ExcelUtil<ViolationTraining>(ViolationTraining.class);
		List<ViolationTraining> dataList = util.importExcel(fis);
		for(ViolationTraining base : dataList) {
			TdtAddressInfo info = this.GetLocationByTDT(base.getAddress());
			System.out.println(info);
            System.out.println("******************************************************");
			if(null != info.getLocation()) {
				String lat = String.valueOf(info.getLocation().getLat());
				String lon = String.valueOf(info.getLocation().getLon());
				base.setLat(lat);
				base.setLon(lon);
				String geom = "SRID=" + 4326 +";POINT (" + lon+ " " + lat + ")";//拼接srid,实现动态写入
				base.setGeom(geom);
			}
			Thread.sleep(3500);
		}
		if(dataList.size() > 0) {
			vtService.saveBatch(dataList, 200);
		}
	} catch (FileNotFoundException e) {
		e.printStackTrace();
	} catch (Exception e) {
		e.printStackTrace();
   }
}

        这里需要注意的话,为了保证不让天地图的后台进行访问限制,我们将每次访问后将暂停3.5秒钟。执行上述的代码后可以看到控制台在输出以下信息:

ViolationTraining(id=null, index=9, name=彭*, address=芙蓉区芙蓉路中隆国际大厦905号, remark=, date=Wed Aug 07 00:00:00 CST 2024, type=隐形变异学科培训, source=长沙晚报, lat=null, lon=null, geom=null, geomJson=null)
https://api.tianditu.gov.cn/geocoder?ds=%7B'keyWord':'芙蓉区芙蓉路中隆国际大厦905号'%7D&tk=473af7dc18cafb6b993616a0ce8e1ead
TdtAddressInfo(msg=ok, status=0, searchVersion=6.4.9V, location=TdtLocation(lon=112.97597, lat=28.19909, level=兴趣点, typeRound=null, score=76.0))
*************************************************************
ViolationTraining(id=null, index=10, name=华斯优学(吴**), address=芙蓉区荷花园街道蔚蓝天空大厦6楼左侧, remark=以托管机构名义变相开展学科培训, date=Wed Aug 07 00:00:00 CST 2024, type=隐形变异学科培训, source=长沙晚报, lat=null, lon=null, geom=null, geomJson=null)
https://api.tianditu.gov.cn/geocoder?ds=%7B'keyWord':'芙蓉区荷花园街道蔚蓝天空大厦6楼左侧'%7D&tk=473af7dc18cafb6b993616a0ce8e1ead
TdtAddressInfo(msg=ok, status=0, searchVersion=6.4.9V, location=TdtLocation(lon=113.015237, lat=28.201385, level=乡镇街道, typeRound=null, score=50.0))
*************************************************************
ViolationTraining(id=null, index=11, name=尹*妮, address=芙蓉区荷花园街道蔚蓝天空大厦6楼左侧, remark=个人租用华斯优学场地变相开展学科培训, date=Wed Aug 07 00:00:00 CST 2024, type=隐形变异学科培训, source=长沙晚报, lat=null, lon=null, geom=null, geomJson=null)
https://api.tianditu.gov.cn/geocoder?ds=%7B'keyWord':'芙蓉区荷花园街道蔚蓝天空大厦6楼左侧'%7D&tk=473af7dc18cafb6b993616a0ce8e1ead
TdtAddressInfo(msg=ok, status=0, searchVersion=6.4.9V, location=TdtLocation(lon=113.015237, lat=28.201385, level=乡镇街道, typeRound=null, score=50.0))
*************************************************************

        说明已经顺利的从后台获取相关信息,程序运行正常。

使用Java进行中小学违规教育培训数据采集实践-以某城市为例_List_04

        最后,我们在数据库中来看一下数据是否已经成功持久化了。执行以下的sql语句:

select * from biz_violation_training;

         这样可以客户端可以看到以下的执行结果:

使用Java进行中小学违规教育培训数据采集实践-以某城市为例_List_05

        到此,说明我们已经成功的把Excel转换成空间数据并持久化到PostGIS中。

 四、总结

        本文以Java语言为例,将市教育局发布的违规培训名单进行集中采集,将数据集中存储。可以将这些数据进行统一分析,为下一步的空间分析和使用分布模型的建立,甚至后续的空间图谱构建奠定一个坚实的基础。通过本文,您将掌握如何进行数据的高效写入,同时进行地理编码的转换,以及相关空间表的设计。行文仓促,难免有许多的不足之处,针对不足,恳请各位专家朋友在评论区批评指正,不胜感激。