如果目前所做的东西,可以称之为ETL的话,就是摸着石头过河。
数据的抽取、转换 装载,我们都是要经历的,这是一个辛苦而富有挑战性的工作。这一期接触了一些旧系统,并把原有的数据,按某种规则整理出来,和普查数据来比对,这个过程中当然有很多种问题。
比较啼笑皆非的事也时有发生,今天早上给客户打电话说我想查询05年发生的交易,结果条件设为>'2005-4-1' 后,检索的结果有2020年,2017年,2008年,2006年.....就是没有2005年,这是怎么回事。客户比较不客气地讲这当然是正常的,因为我们的老服务器的系统时间今天是2012年,明天会是2017年。~晕倒,最后发现只要是05年发生的交易,业务号会是2005开头,于是做个大致的检索了事。
还有次,从另外一套系统的数据抽公产数据,发现原系统ID值大大重复,不仅如此,每个表有二种,一种是  tablea ,另一种几乎同构的是 tablea_abc,于是我猜测这是原来的开发商做了一次后,又换了个人做了次,把自己的名字缩写加在表名后。