定义:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。特点:5v(1)Volume 大量:指的是数据体量巨大,从TB级别跃升到PB级别(1024TB)、EB级别(1024PB),甚至于达到ZB级别(1024EB)。(2)Variety 多样:指的是数据类型繁多。 这种类型的多样性也让
原创 9月前
91阅读
常见关键技术有MapReduce、HBase、HDFS等,其余的例如:Chukwa:数据收集系统,用于监控大型分布式系统。继承了Hadoop的可伸缩性和鲁棒性。 Flume:是Cloudera提供的一个高可用的,高可靠的,分布式的日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;能够对数据进行简单处理,并写到各种数据接受方(可定制) 。 Kafka:是一种高吞
原创 9月前
70阅读
一、对大数据的认识大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。主要解决的是对海量数据的存储以及海量数据的计算分析问题数据单位描述:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。大数据主要的特点:Vol
原创 2022-05-17 17:06:25
188阅读
一、对大数据的认识大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件
原创 2022-12-18 00:13:21
49阅读
别。这些类别本身也会被概括表示,比如通过类别
原创 2023-06-21 12:06:58
90阅读
大数据时代”已经来临,并对各个领域都产生了深远的影响。在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉;而在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力也已经崭露头角。
原创 2012-09-27 09:50:16
334阅读
 Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。  Spark是hadoop的升级版本,
原创 2023-07-24 17:38:37
79阅读
原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and data engineering, 2013, 26(1): 97-107. 使用大数据进行数据挖掘 Xi
原创 2021-07-09 14:19:17
1364阅读
  Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。    Spark兼容Hadoop的APi,能够读写Hadoop的HDFS HBASE 顺序文件等。    传统Hadoop如下图 性能慢原因有:磁盘IO 复制和序列化等
转载 2023-04-25 23:23:40
78阅读
简介Big Data Tools 插件可用于 Intellij Idea 2019.2 及以后的版本。它提供了使用 Zeppelin,AWS S3,Spark,G
原创 2022-05-26 12:13:43
2151阅读
大数据 TB 级以上. 目前关系型数据库支持百万级数据没有问题. 大数据的主要目的和流程: 透过大量的数据, 分析出数据模型进而指导业务. 从目的看, 主要有以下流程: 首先将数据收集 -> 大数据(高可用存储) -> 研究数据(数据分析的计算能力) -> 展示结果 大数据的基本生态 : goo
转载 2020-02-13 15:08:00
244阅读
2评论
什么是hadoopHadoop是一款开源框架,可以在多台具有基本计算节点组成的集群构成的分布式环境上处理大数据。它既可以在单服务节点,也可以在多服务节点上运行,每个节点都会提供局部计算和存储功能。本部分主要会介绍大数据Big Data什么是Big Data?由于新技术,新设备和通信方式的迅速发展,由人类所生成的数据快速增长。大约在2003年初的时候,所具有的数据量大概是50亿GB;而2011年的时
blog/1943464[/url]
原创 2023-05-29 11:06:47
63阅读
一、关联mysql查询维度数据地理位置信息:使用httpClient查询高德地图DimDemopackage cn._51doit.flink.day05;import cn._51doit.flink.day05.func.GeoRichMapFunction;import com.alibaba.fastjson
原创 2022-02-25 17:40:40
207阅读
一、关联mysql查询维度数据地理位置信息:使用httpClient查询高德地图DimDemopackage cn._51doit.flink.day05;import cn._51doit.flink.day05.func.GeoRichMapFunction;import com.alibaba.fastjson.JSON;imp
原创 2022-04-22 09:45:44
292阅读
背景今年的政府工作报告突出了互联网在经济结构转型中的重要地位,报告明白指出:要制定“互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展。报告引发了各行各业对互联网行业的极大关注,未来产业与互联网的融合将贯穿相关行...
转载 2015-12-30 18:28:00
267阅读
2评论
​作者:Ilya Katsov相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足。非常多应用都对实时查询和流式处理产生了迫切需求。近期几年。在这个理念的推动下。催生出了一系列解决方式,Twitter Storm,Yahoo S4,Cloudera Impala。Apache Spark和Apache Tez纷纷增加大数据和NoSQL阵营。本文尝试探讨流式处理系统用到的技术,分析它们与
转载 2017-05-13 19:22:00
134阅读
2评论
    什么是大数据,它本身并不是一个技术命题,它是一个商业命题,为什么这么说,因为大数据背后的技术室让我们企业 通过技术将数据转化成商业价值,所以才说它是一个商业命题。     现在做企业 已经不能向以前一样,只做好服务或者产品就可以成功,虽然这也是成功不可或缺的一部分,但是现在我们可以通过大数据对我们现有的数据进行分析,利用市场最新的技术,要做好商业转
原创 2013-04-26 14:08:38
1105阅读
http://www.infoq.com/articles/bigdata-analytics-for-securityThis article first appeared in the IEEE Security & Privacymagazine and is brought to you b...
转载 2015-05-18 23:06:00
359阅读
  • 1
  • 2
  • 3
  • 4
  • 5