DataCleaner 开源的数据质量工具
原创 4月前
957阅读
学习目标:熟悉 Spark RDD 的使用方法。学习原理:RDD(Resilient Distributed Datasets)可扩展的弹性分布式数据集,RDD是spark最基本的数据抽象,RDD表示一个只读、分区且不变的数据集合,是一种分布式的内存抽象,与分布式共享内存(Distributed Shared Memory,DSM)都是分布式的内存抽象,但两者是不同的。RDD支持两种类型的操作:
DataCleaner 是一个数据质量分析,比较,验证和监督的软件。 DataCleaner包括一个独立的图形用户界面分析,比较和验证,并进行监测web应用。 DataCleaner 3.0.2 ChangeLog: When triggering a job in the monitoring Web application, the panel auto-refreshes every second to get the latest state of the execution. The "Select from key/value map" transformer
Kettle是一款国外开源的ETL工具,使用Java语言编写,可以运行在Windows、Linux、Unix上,数据抽取高效、稳定。
原创 2022-10-08 09:21:00
635阅读
1评论
1.Math类在Math类中提供了众多数学函数方法,主要包括三角函数方法、指数函数方法、取整函数方法、取最大值、最小值以及平均值函数方法,这些方法都被定义为static形式,所以在程序中应用比较简便。      Math.数学方法在Math类中除了函数方法之外还存在一些常用数学变量,如PI、E等。这些数学常量作为Math类的成员变量出现,调用起来也很简单。Math.P
转载 6月前
11阅读
我方还有一个选择:在我们的 生产环境 和预 生产环境 数据库中,有数千个密钥 . 我们需要不时删除一些键(通过某些掩码),按某些标准修改等等 . 当然,没有办法从CLI手动完成,特别是有分片(每个物理中有512个逻辑dbs) .为此我编写了java客户端工具来完成所有这些工作 . 如果删除密钥,实用程序可以非常简单,只有一个类:public class DataCleaner { public s