上一年(2016)的总结
过去的2016年,前半年打了半年酱油,做了几个失败的项目,比如基于交通小区的路况推荐系统和ETA(Estimated Time of Arrival)计算两点之间预计到达时间。这两个项目最后都没有产品化。
开始做完全没有经验,前期花了大量的时间在分析,验证,测试上面。当然工作不是白做,也是积累了一些经验。过了十一以后,换了一个新团队,工作基本趋于稳定,主要精力在货车轨迹分析上面。以前做过私家车
轨迹分析,做过出租车轨迹分析,现在做货车轨迹分析。虽然货车的轨迹比私家车和出租车更稳定,因为货车一般都走高速,相对于私家车和出租车的城市内部道路,道路匹配的算法难度稍微更小
但是货车的应用前景更广阔,比如UBI(基于驾驶行为的保险),所以需要计算的指标更多,比如静态车辆画像,车辆所属企业画像,司机画像,车辆动态轨迹分析。重点和难点也在车辆动态轨迹分析,比如能计算
每辆车长跑城市,长跑线路,经常从哪里装货,从哪里卸货,拉的什么货,经常在哪里加油,经常在哪个物流园装卸货,每天的持续驾驶里程,驾驶时间,是否有疲劳驾驶,是否有超速。每天行驶里程、急转弯、急刹车、加速度等行为。
第二个难点是数据量,目前处理的轨迹点数据量是每天30亿,集群数量是100+。数据规模以及效率远远高于出租车。
已读书籍清单
下一年(2017)的目标
继续专注LBS轨迹大数据挖掘,基于Hadoop集群的大规模分布式计算。
初步了解实时计算技术。
工作
2017年重点工作将放在货车轨迹数据挖掘和分析上面,对Python语言高级应用需要深入研究。
第一季度完成轨迹点行政区划匹配算法优化,以及数据清洗算法优化。
生活
年初生了二宝,今年的集中精力是在照顾二宝上面。
学习
(1)、中国大学慕课
微软亚洲研究院大数据系列讲座
大数据算法
概率论和数理统计
微观经济学
(2)、基于Python的大数据挖掘技术
常用算法,K-means聚类算法,线性回归算法,SVM
看书清单
跑步
今年跑步目标是200公里,每次最低要求5公里。
骑行
骑行目标500公里。