Hadoop生态圈 一 ,采集,数据从哪里来?主要包括flume等;一 ,存储,海量数据怎样有效存储?主要包括hdfs、Kafka;二,计算,海量数据怎样快速计算?主要包括MapReduce、Spark、storm等;三,查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主
很多初学者,对大数据概念都是模糊不清大数据是什么,能做什么,学时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习同学欢迎加入大数据学习qq群:498856122,有大量干货(零基础以及进阶经典实战)分享给大家,并且有清华大学毕业资深大数据讲师给大家免费授课,给大家分享目前国内最完整大数据高端实战实用学习流程体系。
原创 2019-05-10 10:48:29
2370阅读
大数据处理框架Hadoop介绍  海量数据诞生,催生了以Hadoop为代表一系列数据处理框架面世,为海量数据分析提供了强大支撑力量。Hadoop是一个被广泛应用于集群环境中海量数据分布式处理框架。下面,我们就来科普性地认识一下Hadoop!1 背景  大数据时代,我们已经很难估算全球电子设备中存储数据总量有多少;同时,随着智能终端、物联网、社交媒体等广泛普及,各行各业均在谋求数字化转
大数据框架 hadoop/spark/hbase/storm/hive 等最近会抽时间开写这篇博客
原创 2016-06-02 10:11:12
405阅读
一、Hadoop1.HadoopHadoop初衷是采用大量廉价机器,组成一个集群,完成大数据存储和计算。2.hadoop中组件hadoop 1.x HDFS: 负责大数据存储 Common: HDFS和MR共有的常用工具包模块 MapReduce: 负责计算,负责计算资源申请调度完成大数据计算 ①写程序,程序需要复合计算框架要求。 java---->main-----&g
转载 2023-07-12 12:32:23
132阅读
大数据框架 系统平台 Hadoop、CDH、HDP 监控管理 CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle 文件系统 HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio 资源调度 YARN、Mesos 协调框架
原创 2022-07-30 00:54:47
954阅读
# 大数据技术架构简述 ## 1. 整体流程 在大数据领域,技术架构设计和实现是非常重要。下面是实现大数据技术架构一般步骤: | 步骤 | 描述 | | --- | --- | | 1 | 确定需求和数据来源 | | 2 | 数据收集和处理 | | 3 | 数据存储和管理 | | 4 | 数据分析和挖掘 | | 5 | 结果可视化和应用 | ## 2. 具体步骤 ### 步骤一:确
原创 2024-04-13 06:06:13
110阅读
Kubernetes (K8s) 是一个用于自动部署、扩展和管理容器化应用程序开源系统。在大数据领域,K8s也被广泛应用于部署和管理大数据开源框架常见K8s大数据开源框架包括Hadoop、Spark、Flink等。本文将介绍如何在K8s上部署和管理这些大数据开源框架。 ## 实现常见K8s大数据开源框架流程 步骤 | 操作 --- | --- 1 | 安装和配置Kubernetes集群
原创 2024-03-11 13:24:39
103阅读
大数据处理架构如何    大数据处理结构Hadoop怎么样?Hadoop是一个开源框架,主要处理、存储和分析大量分布式非结构化数据。他核心是分布式文件系统HDFS和MapReduce。              &
我们如何对抗 CAP 理论?计算机科学中有一个 CAP 定理,分布式数据存储不可能同时提供以下三个保证中两个以上。一致性:每个节点读取是最新结果或者是报错。可用性:每个请求都会收到一个(非错误)响应,但不保证它包含最新写入。分区容错:尽管节点之间网络丢弃(或延迟了)任意数量消息,系统仍继续运行。简史2011年,内森·马兹(Nathan Marz)在他博客中提出了一种解决 CAP 定理局
转载 2021-06-07 17:59:09
589阅读
Java 类集框架1. Java类集框架产生原因        在基础应用中,我们可以通过数组来保存一组对象或者基本数据,但数组大小是不可更改,因此出于灵活性考虑和对空间价值担忧,我们可以使用链表来实现动态数组。灵活代价是操作上繁琐,在计算机世界,处理繁琐问题不二法门就是将其封装,只向外暴露以供调用方法视
转载 2024-05-08 13:26:01
45阅读
1、HDFS读流程和写流程1.1 HDFS写数据流程① 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。② NameNode返回是否可以上传。③ 客户端请求第一个 Block上传到哪几个DataNode服务器上。④ NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。⑤ 客户端
转载 2023-11-14 09:37:11
79阅读
 
转载 2023-07-04 09:39:07
148阅读
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、java
it
原创 2017-07-04 17:01:46
2289阅读
1.Spark介绍Spark是一种通用大数据计算框架,是基于RDD(弹性分布式数据集)一种计算模型。那到底是什么,可能还不是太理解,通俗讲就是可以分布式处理大量极数据,将大量集数据先拆分,分别进行计算,然后再将计算后结果进行合并。这一篇主要给大家分享如何在Windows上安装Spark。2.Spark下载我们要安装Spark,首先需要到Saprk官网去下载对应安装包,Spark官网:ht
安装Hadoop下载安装 Hadoop# 下载,移动目录wget https://apachemirror.sg.wuchna.com/hadoop/common/hadoop-3.1.4/hadoop-3.1.4.tar.gztar -xzvf hadoop-3.1.4.tar.gzsudo mv hadoop-3.1.4/ /usr/local/ sudo ln -sf /usr/local/hadoop-3.1.4 /usr/local/hadoopsudo chown -R tqc
原创 2021-08-04 10:50:21
257阅读
  概述  大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同特征,包括数据频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。选择一种架构并构建合适大数据解决方案极具挑战,因为需要考虑非常多因素。  这个 “大数据架构和模式” 系列提供了一种结构化和基于模式方法来简化定义完整大数据架构任务。因为评估一个业务场景是否存在大数据
第 1 部分: 大数据分类和架构简介第 2 部分: 如何知道一个大数据解决方案是否适合您组织第 3 部分: 理解大数据解决方案架构层第 4 部分: 了解用于大数据解决方案原子模式和复合模式第 5 部分: 对大数据问题应用解决方案模式并选择实现它产品概述大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同特征,包括数据频率、量、速度、类型和真实性。处理并存储大数据时,会涉
今日鸡汤江东子弟多才俊,卷土重来未可知。「数仓宝贝库」,带你学数据!导读:Python中常见数据结构有列表(list)、元组(tuple)、集合(set)、字典(dict)等,这些数据结构表示了自身在Python中存在形式,在Python中可以输入type(对象)查看数据类型。1列表(1)创建列表列表是Python内置一种数据类型,它是一种有序数据集合,是用于存储一连串元素容器。列表用[
转载 2023-04-21 10:29:36
89阅读
今日鸡汤仰天大笑出门去,我辈岂是蓬蒿人。「数仓宝贝库」,带你学数据!​​导读:​Python中常见数据结构有列表(list)、元组(tuple)、集合(set)、字典(dict)等,这些数据结构表示了自身在Python中存在形式,在Python中可以输入type(对象)查看数据类型。​​1列表​​​(1)创建列表​​​列表是Python内置一种数据类型,它是一种有序数据集合,是用于存储一连
转载 2022-03-16 17:09:40
48阅读
  • 1
  • 2
  • 3
  • 4
  • 5