Hadoop生态圈 一 ,采集,数据从哪里来?主要包括flume等;一 ,存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;二,计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、storm等;三,查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主
转载
2024-05-01 21:14:08
76阅读
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:498856122,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。
原创
2019-05-10 10:48:29
2370阅读
大数据处理框架Hadoop介绍 海量数据的诞生,催生了以Hadoop为代表的一系列数据处理框架的面世,为海量数据分析提供了强大的支撑力量。Hadoop是一个被广泛应用于集群环境中的海量数据分布式处理框架。下面,我们就来科普性地认识一下Hadoop!1 背景 大数据时代,我们已经很难估算全球电子设备中存储的数据总量有多少;同时,随着智能终端、物联网、社交媒体等的广泛普及,各行各业均在谋求数字化转
转载
2023-07-24 15:11:57
108阅读
大数据框架 hadoop/spark/hbase/storm/hive 等最近会抽时间开写这篇博客
原创
2016-06-02 10:11:12
408阅读
一、Hadoop1.HadoopHadoop的初衷是采用大量的廉价机器,组成一个集群,完成大数据的存储和计算。2.hadoop中的组件hadoop 1.x HDFS: 负责大数据的存储 Common: HDFS和MR共有的常用的工具包模块 MapReduce: 负责计算,负责计算资源的申请的调度完成大数据的计算 ①写程序,程序需要复合计算框架的要求。 java---->main-----&g
转载
2023-07-12 12:32:23
132阅读
大数据框架 系统平台 Hadoop、CDH、HDP 监控管理 CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle 文件系统 HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio 资源调度 YARN、Mesos 协调框架
原创
2022-07-30 00:54:47
954阅读
# 大数据技术架构简述
## 1. 整体流程
在大数据领域,技术架构的设计和实现是非常重要的。下面是实现大数据技术架构的一般步骤:
| 步骤 | 描述 |
| --- | --- |
| 1 | 确定需求和数据来源 |
| 2 | 数据收集和处理 |
| 3 | 数据存储和管理 |
| 4 | 数据分析和挖掘 |
| 5 | 结果可视化和应用 |
## 2. 具体步骤
### 步骤一:确
原创
2024-04-13 06:06:13
110阅读
Kubernetes (K8s) 是一个用于自动部署、扩展和管理容器化应用程序的开源系统。在大数据领域,K8s也被广泛应用于部署和管理大数据开源框架。常见的K8s大数据开源框架包括Hadoop、Spark、Flink等。本文将介绍如何在K8s上部署和管理这些大数据开源框架。
## 实现常见的K8s大数据开源框架流程
步骤 | 操作
--- | ---
1 | 安装和配置Kubernetes集群
原创
2024-03-11 13:24:39
103阅读
大数据处理架构如何 大数据处理结构Hadoop怎么样?Hadoop是一个开源的框架,主要处理、存储和分析大量分布式的非结构化数据。他的核心是分布式文件系统HDFS和MapReduce。 &
转载
2023-07-16 20:55:20
73阅读
我们如何对抗 CAP 理论?计算机科学中有一个 CAP 定理,分布式数据存储不可能同时提供以下三个保证中的两个以上。一致性:每个节点读取的是最新结果或者是报错。可用性:每个请求都会收到一个(非错误)响应,但不保证它包含最新的写入。分区容错:尽管节点之间的网络丢弃(或延迟了)任意数量的消息,系统仍继续运行。简史2011年,内森·马兹(Nathan Marz)在他的博客中提出了一种解决 CAP 定理局
转载
2021-06-07 17:59:09
589阅读
Java 类集框架1. Java类集框架产生的原因 在基础的应用中,我们可以通过数组来保存一组对象或者基本数据,但数组的大小是不可更改的,因此出于灵活性的考虑和对空间价值的担忧,我们可以使用链表来实现动态的数组。灵活的代价是操作上的繁琐,在计算机的世界,处理繁琐问题的不二法门就是将其封装,只向外暴露以供调用的方法视
转载
2024-05-08 13:26:01
45阅读
1、HDFS读流程和写流程1.1 HDFS写数据流程① 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。② NameNode返回是否可以上传。③ 客户端请求第一个 Block上传到哪几个DataNode服务器上。④ NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。⑤ 客户端
转载
2023-11-14 09:37:11
79阅读
转载
2023-07-04 09:39:07
148阅读
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、java
原创
2017-07-04 17:01:46
2289阅读
1.Spark介绍Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么,可能还不是太理解,通俗讲就是可以分布式处理大量极数据的,将大量集数据先拆分,分别进行计算,然后再将计算后的结果进行合并。这一篇主要给大家分享如何在Windows上安装Spark。2.Spark下载我们要安装Spark,首先需要到Saprk官网去下载对应的安装包,Spark官网:ht
转载
2023-09-07 09:29:34
23阅读
安装Hadoop下载安装 Hadoop# 下载,移动目录wget https://apachemirror.sg.wuchna.com/hadoop/common/hadoop-3.1.4/hadoop-3.1.4.tar.gztar -xzvf hadoop-3.1.4.tar.gzsudo mv hadoop-3.1.4/ /usr/local/ sudo ln -sf /usr/local/hadoop-3.1.4 /usr/local/hadoopsudo chown -R tqc
原创
2021-08-04 10:50:21
260阅读
今日鸡汤江东子弟多才俊,卷土重来未可知。「数仓宝贝库」,带你学数据!导读:Python中常见的数据结构有列表(list)、元组(tuple)、集合(set)、字典(dict)等,这些数据结构表示了自身在Python中的存在形式,在Python中可以输入type(对象)查看数据类型。1列表(1)创建列表列表是Python内置的一种数据类型,它是一种有序的数据集合,是用于存储一连串元素的容器。列表用[
转载
2023-04-21 10:29:36
89阅读
今日鸡汤仰天大笑出门去,我辈岂是蓬蒿人。「数仓宝贝库」,带你学数据!导读:Python中常见的数据结构有列表(list)、元组(tuple)、集合(set)、字典(dict)等,这些数据结构表示了自身在Python中的存在形式,在Python中可以输入type(对象)查看数据类型。1列表(1)创建列表列表是Python内置的一种数据类型,它是一种有序的数据集合,是用于存储一连
转载
2022-03-16 17:09:40
48阅读
Python中常见的数据结构有列表(list)、元组(tuple)、集合(set)、字典(dict)等,这些数据结构表示了自身在Python中的存在形式,在Python中可以输入type(对象)查看数...
转载
2021-07-21 11:27:01
49阅读
第 1 部分: 大数据分类和架构简介第 2 部分: 如何知道一个大数据解决方案是否适合您的组织第 3 部分: 理解大数据解决方案的架构层第 4 部分: 了解用于大数据解决方案的原子模式和复合模式第 5 部分: 对大数据问题应用解决方案模式并选择实现它的产品概述大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉
转载
2023-10-28 18:08:16
44阅读