通勤出行是城市居民日常活动中的重要组成部分,其中通勤发生量、通勤吸引量与OD通勤量不仅是通勤需求预测关心的指标,相关研究成果对于规划管理政策制定或城市建设项目评估等更是有重要的决策参考意义。随着大数据时代的到来与机器学习技术的蓬勃发展,多源大数据和机器学习方法使得构建更加细致复杂的通勤量模型成为可能。
摘要 研究方法:选取机器学习领域的随机森林作为估算、预测与分析通勤量的研究方法,
转载
2024-01-30 07:27:09
111阅读
大数据核心3个概念:能伸缩到一千台以上的分布式数据处理集群技术这上千个节点是使用廉价PC搭建将数据中心当做一台计算机大数据的起源:“三架马车”这三篇论文还依赖了两个基础设施:Chubby锁服务,Thrift序列化MapReduce 演进路线:编程方式:最初的MapReduce需要工程师编写代码,Hive出现后使用类SQL语言降低了门槛,称为大数据仓库事实标准执行引擎:Dremel使用数据列存储+并
转载
2023-07-06 14:17:00
187阅读
一、什么是大数据?大数据(Big Data) :在一定时间范围内无法通过常规软件进行捕捉,处理和管理的一系列数据集合,大数据主要解决的是海量数据的存储和分析计算问题。二、大数据特点 大量 多样 高速 低价值密度三、Hadoop 是什么? 1、Hadoop 狭义上就是 Apache Hadoop,一个顶级的分布式系统基础架构,主要用于解决海量数据的存储和分析计算问
转载
2023-07-12 22:00:35
89阅读
学习大数据,学什么?怎么学?1、原理和运行机制、体系结构(非常重要)2、动手:搭建环境、写程序目的:1、学习内容 2、熟悉一些名词一、各章概述(Hadoop部分) (一)、Hadoop的起源与背景知识 1、什么是大数据?两个例子、大数据的核心问题是什么? 举例:(1)商品推荐:问题1:大量的订单如何存储? 问题2:大量的订单如何计算? (2)天气预报:问题1:大量的天气数据如何存储? 问题2:大量
转载
2023-09-03 18:06:53
67阅读
《Spark: Cluster Computing with Working Sets》读书报告介绍 大数据和人工智能的诞生给在集群计算机上进行并行计算提出了需求。 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所设计的,类似Hadoop MapReduce的通用并行框架。Sp
转载
2023-11-03 10:52:04
88阅读
谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!1、GFS论文—2003年发表 2003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量
转载
2023-10-29 07:45:42
77阅读
2019.031概述大数据平台通过统一的大数据库实现全省业务信息的集中,该库数据来源于全省各个业务系统和基础数据库等应用数据、位置数据、搜索数据等结构化数据、半结构化数据、非结构化数据,通过数据采集管理平台从相关系统中获取;其次是建立大数据库管理系统对大数据库进行管理,由接口服务、数据指标管理、数据维护管理、数据查询比对核查等功能构成;第三是建立数据利用应用综合分析系统,为业务部门提供数据分析支撑
转载
2023-11-16 13:36:14
50阅读
一、大数据概念大数据 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。主要解决问题海量数据的采集存储和分析计算问题特点大量(Volume)高速(Velocity):处理效率多样(Variety):结构化(数据库、文本)/非结构化(音频、视频)低价值密度(Value):数据总量越大,价值密度越低。有用数据提纯二、Hadoop入门概念1. Hadoop是
今天看到一篇有关云计算技术文章,把虚拟化和虚机集群管理OpenStack、容器Docker和容器集群管理Kubernetes、通用资源调度管理器Mesos和大数据处理调度管理器YARN、容器隔离微服务和SOA大集成都讲透了。我也手痒想把大数据这块给大家讲讲。一、先说各种数据存储数据是个很泛的概念,但是我们脑海里第一反应的就是关系型数据库和EXCEL这种二维表是数据。而现在数据各种各样特色,有文档、
转载
2024-07-19 15:38:05
42阅读
1. hadoop ——高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。2. Spark ——使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对 microbatching/batching/SQL支持简单。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapR
转载
2023-11-21 09:14:46
87阅读
大数据分析,gartner定义:通过信息资源进行深度理解进而做出相应决策,此类信息具有huge-volume,fast-velocity和different variety的特性。通过数据分析,解锁隐藏模式,更全面的了解客户从而更好的了解他们的需求。解决大数据存储和处理的技术包括Apache Hadoop、Apache Spark、Apache KafkaHadoop是一个开源框架,由java编写
转载
2023-12-01 23:44:54
266阅读
概述 这个时代被称之为大数据时代,各行各业生产的数据量呈现爆发性增长,并且基于这些爆发性增长的数据做深层次的数据挖掘、分析。因此,我们可以很容易的感觉到,在这样一个大数据的时代,我们很多做事情的方法正在发生了改变。例如,基于大数据分析可以做疾病预测控制;基于大数据分析可以做交通流量预测控制;基于大数据分析可以做大型系统故障诊断预测;基于大数据分析可以做客户消费推荐。可以说,大数据时代可以
转载
2023-08-09 23:08:59
406阅读
Hadoop概述Hadoop是大数据领域中非常重要的基础技术,他是一个海量数据存储、处理系统,也是一个生态圈(HDFS,MapReduce,Hive,Hbase等)历史Google:搜索引擎。收集互联网上的所有数据,存储数据,处理数据,提供给用户。Google搜索引擎相关技术非常成熟,但是并没有开源,不过,在2004年先后发表了两篇论文:《Google File System》(GFS)、《Map
转载
2024-06-26 09:56:06
487阅读
一、什么是大数据?1.1 大数据核心的问题有:1、海量数据如何存储?
2、海量数据如何计算?1.2 大数据解决了以上两个问题。举两个例子:1、大型电商网站的商品推荐,海量的历史的售卖数据如何存储?如何从海量的历史售卖数据中计算出盈利最大化的数据推荐给用户?
2、天气预报,海量的天气数据如何存储?如何从海量的历史数据中计算预测出未来的天气?二、传统数据处理过程与大数据体系随着数据库的
转载
2023-10-26 20:05:14
141阅读
物流大数据,都是哪些数据?物流大数据主要包括运单信息的数据和车辆信息的数据,然而关于运单信息往往涉及商业机密,并且信息分布于不同行业企业内部,不宜公开。因此当前现实的数据条件来看,实业界和学术界的物流大数据主要是关于货运车辆信息的数据。其中包括:车辆id信息,驾驶员信息,车辆行驶轨迹坐标信息,车辆停车信息,车辆速度信息,车辆里程信息,车辆温度信息,车辆油耗信息,车辆其他状态信息等。轨迹数据挖掘
转载
2023-12-18 23:02:17
0阅读
架构挑战1、对现有数据库管理技术的挑战。2、经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化数据查询语言),在设计的一开始是没有考虑到非结构化数据的存储问题。3、实时性技术的挑战:一般而言,传统数据仓库系统,BI应用,对处理时间的要求并不高。因此这类应用通过建模,运行1-2天获得结果依然没什么问题。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。
转载
2024-05-21 07:24:59
90阅读
1. 机器学习与数据分析“数据挖掘”和"数据分析”通常被相提并论,并在许多场合被认为是可以相互替代的术语。关于数据挖掘,已有多种文字不同但含义接近的定义,例如“识别出巨量数据中有效的.新颖的、潜在有用的最终可理解的模式的非平凡过程”,无论是数据分析还是数据挖掘,都是帮助人们收集、分析数据,使之成为信息,并做出判断,因此可以将这两项合称为数据分析与挖掘。 数据分析与挖掘技术是机器学习算法和数据存取技
转载
2024-01-12 13:51:26
0阅读
目录Hadoop面临的安全威胁:数据泄露攻击和调查论文背景简介相关工作Hadoop中的数据泄露攻击一种用于Hadoop取证的调查框架数据收集器数据分析仪结论 Hadoop面临的安全威胁:数据泄露攻击和调查论文背景Hadoop作为目前最流行的大数据处理平台之一,具有成本低、使用方便、速度快等特点。然而,它也是数据泄露攻击的重要目标,因为越来越多的企业和个人在其中存储和处理他们的私人数据。如何调查H
转载
2024-03-20 14:41:18
11阅读
大数据概述: 大数据的发展历程:第一阶段:萌芽期(20世纪90年代至21世纪初) 第二阶段:成熟期(21世纪前十年) 第三阶段:大规模应用期(2010年以后) 大数据的特点(简称4V):数据量大 数据类型多 处理速度快 价值密度低 大数据的特征:全面而非抽样 效率而非精确 相关而非因果 在科学研究上的四种范式: 实验科学、理论科学、计算科学、数据密集型科学大数据技术 主要包括数据采集与预处理、数据
转载
2023-11-16 09:55:28
135阅读
看过来!!!2017年,大数据已经从概念走向落地;2019年,中低端IT工程师紧随浪潮加速向大数据转型,企业对大数据人才争夺直接进入白热化阶段。因此,对于想学IT技术的、想月入过万不是梦的人而言,我建议,直接选择学习大数据技术是符合潮流和就业需求的选择。一、大数据是什么?1、大数据简介一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的
转载
2024-05-08 10:47:21
192阅读