大数据出租车数据分析打车大数据分析

转载

definitely 2024-01-12 22:10:49

文章标签 大数据出租车数据分析 hadoop 大数据 hive 聚类 文章分类 数据分析人工智能

大数据出租车数据分析打车大数据分析_大数据

案例描述
项目概要
项目背景：
随着互联网的深入发展，打车再也不是乘客呆呆的站在路口等待车辆的经过。随着各种打车软件的发展，打车可以足不出户，就可以约到自己想要搭乘的汽车。本实验主要是来探究生活中存在的打车难的问题，这个问题限制了我们有些时间的出行，有时浪费了我们大量的时间。在哪些地方容易打车，什么时候的车更容易搭乘，这是我们要着手解决的问题。
建设目标：
为了乘客能够高效，便捷的搭乘到出租车。本案例将利用某城市的出租车驾驶轨迹的数据，通过大数据分析算法等相关技能，对打车的现状进行分析，并最终用可视化的手段直观的展示分析结果。为用户提供决策支持。
需求分析
需求介绍：
根据已有的数据集，进行相应的特征工程后，实现机器学习算法的分发。根据预测的结果使用MapReduce、hive完成
出租车运行状态的统计，区域出租车分布的统计，最大程度将分析结果可视化，为该区域用户打车提供便利。
. 功能点：
实现特征工程，模型训练，模型测试，模型预测，结果细分，数据可视化
. 特征工程
加载csv文件，实现自定义schema的匹配。将表数据利用向量装配器的transform进行转换，构建特征向量。
.
模型训练：
选用k-means算法对原始数据进行预测，设置要聚类的簇数，设置输入，和标签列。
利用fit方法，进行模型训练。
获取聚类的中心
将训练好的model保存到本地
模型预测：
利用训练好的模型对测试集数据进行预测
结果细分：
利用mapreduce, hive对预测结果进行统计查询分析。
可视化展示
利用百度地图相关API 和 D3.JS 对结果进行展示
解决方案

. 架构简介：
本系统架构采用模块化设计，分为数据准备，解析csv数据，
构建特征向量，聚类模型训练，聚类模型测试，分析预测结果，数据可化
将待处理的文件存放到本地Linux的指定目录中
. 数据准备模块：
将待处理的文件存放到本地Linux的指定目录中
. 解析CSV模块：
通过hive加载第三方的插件，实现对原始数据字段的解析。
. 构建特征向量：
通过定义特征数组，匹配原始数据schema，利用VectorAssember设置相关的属性
. 聚类模型训练：
利用K-means模型对原始数据中的训练集数据，进行训练
. 聚类模型测试
利用测试集数据对模型进行测试
. 分析预测结果
利用hive对预测结果进行深入的分析
. 数据可视化
利用百度地图API 和D3.js对分析结果进行可视化展示。
. 技术名称：
序号技术名称所属模块优点掌握程度
1 hive 分析预测结果 4星
2 Kmeans 模型训练，模型预测算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。原理结单，容易实现 4星
3 百度地图API ， D3 js 可视化展示简单，便捷，代码量少 4星
准备工作
. 数据介绍：
通过已有的历史数据，进行相应的规则清洗后，存放到Linux本地，为实验做准备
. 字段说明：
序号字段描述
0 TID 汽车ID
1 Lon 维度
2 Lat 经度
3 Time 时间戳
特征工程
通过csv工具类和自定义Schema的创建，利用spark
向量装配器将原始数据映射为特征向量
模型训练
使用预处理方法将特征向量划分为train和test两个部分，利用k-means进行模型的训练。
模型测试
利用测试集数据，对模型的进行预测
分析预测结果
将预测的结果使用hive进行统计分析，实现具体的业务需求。
数据可视化
使用百度地图开发API 和 D3.js 对最终的预测结果进行可视化展示