大数据 出租车数据分析 打车 大数据分析_大数据

案例描述
项目概要
项目背景:
随着互联网的深入发展,打车再也不是乘客呆呆的站在路口等待车辆的经过。随着各种打车软件的发展,打车可以足不出户,就可以约到自己想要搭乘的汽车。本实验主要是来探究生活中存在的打车难的问题,这个问题限制了我们有些时间的出行,有时浪费了我们大量的时间。在哪些地方容易打车,什么时候的车更容易搭乘,这是我们要着手解决的问题。
建设目标:
为了乘客能够高效,便捷的搭乘到出租车。本案例将利用某城市的出租车驾驶轨迹的数据,通过大数据分析算法等相关技能,对打车的现状进行分析,并最终用可视化的手段直观的展示分析结果。为用户提供决策支持。
需求分析
需求介绍:
根据已有的数据集,进行相应的特征工程后,实现机器学习算法的分发。根据预测的结果使用MapReduce、hive完成
出租车运行状态的统计,区域出租车分布的统计,最大程度将分析结果可视化,为该区域用户打车提供便利。
. 功能点:
实现特征工程, 模型训练, 模型测试, 模型预测, 结果细分, 数据可视化
. 特征工程
加载csv文件,实现自定义schema的匹配。将表数据利用向量装配器的transform进行转换,构建特征向量。
.
模型训练:
选用k-means算法对原始数据进行预测,设置要聚类的簇数,设置输入,和标签列。
利用fit方法,进行模型训练。
获取聚类的中心
将训练好的model保存到本地
模型预测:
利用训练好的模型对测试集数据进行预测
结果细分:
利用mapreduce, hive对预测结果进行统计查询分析。
可视化展示
利用百度地图相关API 和 D3.JS 对结果进行展示
解决方案

. 架构简介:
本系统架构采用模块化设计,分为数据准备, 解析csv数据,
构建特征向量,聚类模型训练,聚类模型测试, 分析预测结果,数据可化
将待处理的文件存放到本地Linux的指定目录中
. 数据准备模块:
将待处理的文件存放到本地Linux的指定目录中
. 解析CSV模块:
通过hive加载第三方的插件,实现对原始数据字段的解析。
. 构建特征向量:
通过定义特征数组,匹配原始数据schema,利用VectorAssember设置相关的属性
. 聚类模型训练:
利用K-means模型对原始数据中的训练集数据,进行训练
. 聚类模型测试
利用测试集数据对模型进行测试
. 分析预测结果
利用hive对预测结果进行深入的分析
. 数据可视化
利用百度地图API 和D3.js对分析结果进行可视化展示。
. 技术名称:
序号 技术名称 所属模块 优点 掌握程度
1 hive 分析预测结果 4星
2 Kmeans 模型训练, 模型预测 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。原理结单,容易实现 4星
3 百度地图API , D3 js 可视化展示 简单,便捷,代码量少 4星
准备工作
. 数据介绍:
通过已有的历史数据,进行相应的规则清洗后,存放到Linux本地,为实验做准备
. 字段说明:
序号 字段 描述
0 TID 汽车ID
1 Lon 维度
2 Lat 经度
3 Time 时间戳
特征工程
通过csv工具类和 自定义Schema的创建,利用spark
向量装配器将原始数据映射为特征向量
模型训练
使用预处理方法将特征向量划分为train和test两个部分,利用k-means进行模型的训练。
模型测试
利用测试集数据,对模型的进行预测
分析预测结果
将预测的结果使用hive进行统计分析,实现具体的业务需求。
数据可视化
使用百度地图开发API 和 D3.js 对最终的预测结果进行可视化展示