一、大数据的四大特征:  a.海量的数据规模(volume)  b.快速的数据流转和动态的数据体系(velocity)  c.多样的数据类型(variety)  d.巨大的数据价值(value)    二.Spark 和 Hadoop的不同  Spark是给予map reduce 算法实现的分布式计算,拥有Hadoop MapReduce所具有的有点,但不同与MaoRedu
转载 2023-09-22 13:02:02
92阅读
运行 Spark 示例 注意,必须安装 Hadoop 才能使用 Spark,但如果使用 Spark 过程中没用到 HDFS,不启动 Hadoop 也是可以的。此外,接下来教程中出现的命令、目录,若无说明,则一般以 Spark 的安装目录(/usr/local/spark)为当前路径,请注意区分。 在 ./examples/src/main 目录下有一些 Spark 的示例程序,有 Scala、J
Spark1.0.x入门指南1 节点说明2 安装HDFS3 Spark部署3.1 Spark on Yarn3.1.1 配置3.1.2 测试3.2 Spark Standalone3.2.1 配置3.2.2 启动3.2.3 测试4 spark-submit工具5 Spark HistoryServer6 Spark可配置参数6.1 应用属性6.2 运行
转载 2023-07-25 00:24:38
118阅读
首先,需要知道Spark的几种运行模式:1. Local:本地模式,不涉及分布式,用线程模拟分布式2. standalone:独立模式,伪分布式3. onyarn:完全分布式    下面又有两种部署模式:cluster集群模式和client客户端模式    Driver:任务提交之后开启的第一个进程。    两种模式的区别在于:客户端模式
转载 2023-11-06 22:12:40
100阅读
随手记录一些用到的东西或问题,防止自己忘记或再次遇到 文章目录启动顺序Hadoopzookeeper启动启动Saprk涉及到hostname的配置文件宿主机hosts配置文件Ubuntu自身配置文件zookeeper配置文件包含主机名HadoopSpark配置文件包含主机名 启动顺序先启动Hadoop 集群,再启动zookeeper,最后启动sparkHadoop格式化:跟重装系统一样,只能第一次
在本博文中,我将分享关于“Linux Spark 启动”的系统性解决方案。实现 Apache Spark 的正确启动,需要涉及多个方面,包括环境配置、编译过程、参数调优、定制开发、错误集锦和部署方案。以下结构将详细阐述解决问题所需的每一个关键环节。 ### 环境配置 在配置环境时,首先需要明确 Spark 的依赖项,以及相应的版本。同时,通过思维导图可以有效梳理出各个组件之间的关系。 ``
原创 7月前
31阅读
1.下载tag软件包后,我习惯放到software文件夹下,并建立app文件夹2.通过tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/ 命令解压到app目录下3.配置环境变量:通过vim ~/.bash_profile进行编辑   export HADOOP_HOME=/home/安装目录/hadoop-2.6.0-cdh5.7.0   export
转载 2023-07-31 21:42:48
134阅读
 Hadoop运行环境搭建重来3遍是正常的,这篇针对的是怎么也无法修改为目标ip地址的情况。1.安装VMware,文章末尾有链接,没什么需要注意的,也可以跟着视频安装2.CentOS ,文章末尾有链接,从这里开始跟着视频,涉及到输入密码的统一设置为一个密码000000。3.VMware的配置1.打开虚拟网络编辑器: 2.按照绿色标记的顺序,点击。 3.更改子网,打开NAT设置 4.更改网
转载 2023-07-24 10:44:21
78阅读
Hadoop的安装与配置在Linux安装与配置Hadoop    Hadoop的下载地址为http://hadoop.apache.org/releases.html    在安装之前,需要先安装两个程序:    1)JDK。Hadoop是用Java编写的程序,Hadoop的编译及MapReduce的运行都需要使用JDK。 
硬件环境:hddcluster1 10.0.0.197 redhat7hddcluster2 10.0.0.228 centos7  这台作为masterhddcluster3 10.0.0.202 redhat7hddcluster4 10.0.0.181 centos7软件环境:关闭所有防火墙firewallopenssh-clientsopenssh-serverjava-1.8.
原创 2016-12-22 11:27:16
618阅读
Spark-Shell操作spark-shell简述 spark-shell是REPL(Read-Eval-Print Loop,交互式解释器),它为我们提供了交互式执行环境,表达式计算完成以后就会立即输出结果,而不必等到整个程序运行完毕,因此可以及时查看中间结果并对程序进行修改,这样可以在很大程度上提升程序开发效率。spark-shell支持Scala和Python,Spark框架使用Scala
转载 2023-05-29 16:42:29
244阅读
    生命不息,折腾不止,趁着最近工作不是太忙继续我的编程之路的学习。    年龄大了,很多东西做过一遍就容易忘记,所谓“好记性不如烂笔头”,对于知识还是记录下来比较容易保存,既是给自己留个笔记,也可以分享给其他有需要的人。废话少说,以下记录我的spark学习之旅:    一、准备工作    1.准备三台服务器.一台作为master,另外两台作为slave    我这里准备了三台服务器,对应的I
spark简介Spark 的主要抽象是分布式的元素集合(distributed collection of items),称为RDD(Resilient Distributed Dataset,弹性分布式数据集),它可被分发到集群各个节点,进行并行操作。RDDs 可以通过 Hadoop InputFormats 创建(如 HDFS),或者从其他 RDDs 转化而来。Spark安装步骤Spark
来源:《spark实战》讲义[1.1 ] sparkhadoop联系Spark可以使用YARN作为它的集群管理器,并且可以处理HDFS的数据。这 对于已经部署Hadoop集群的用户特别重要,毕竟不需要做任何的数据迁移 就可以使用Spark的强大处理能力。[ 1.2] SparkHadoop的区别框架: MR:由Map和Reduce两个阶段,并通过shuffle将两个阶段连接起来的。 Spark
转载 2023-09-30 07:42:27
63阅读
spark实验1 Linux 系统的安装和常用命令实验内容和要求1.安装 Linux 虚拟机2.使用 Linux 系统的常用命令启动 Linux 虚拟机,进入 Linux 系统,通过查阅相关 Linux 书籍和网络资料,或者参考本教程官网的“实验指南”的“Linux 系统常用命令”,完成如下操作:(1)切换到目录 /usr/bin;  (2)查看目录/usr/local 下所有的文件;&
1 相关概念Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.1 与Hadoop区别SparkHadoop中的MapReduce相似,都是用于进行并行计算的框架,二者根本差异是多个作业之间的数据通信问题 : Spark 的多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘,因此Spark作为MapReduce的升级改进,计算速度会更快。MapReduce 由于其设
莫思身外无穷事,且尽生前有限杯。 ——杜甫《绝句漫兴九首》系列文章目录Hadoop集群搭建之Linux系统安装Hadoop集群搭建之Hadoop组件安装 文章目录系列文章目录前言一、CentOS下载安装二、VMware下载安装三、利用虚拟机搭建Linux系统总结 前言记录Hadoop集群搭建的具体过程,分享我遇到的坑,如有错误,请各位小伙伴指正,持续更新中。一、CentOS下载安装在官网下载镜像,
文章目录一、概述二、Flink工作原理三、Flink核心概念1)Time(时间语义)2)Window(窗口)3) Trigger1、自定义触发器2、预定义触发器4)State5)状态存储1、MemoryStateBackend2、FsStateBackend3、RocksDBStateBackend6)Checkpoint1、Asynchronous Barrier Snapshots(ABS)
转载 2023-07-14 17:10:02
401阅读
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、Spark是什么?二、使用步骤1.环境准备2.集群规划3.Spark HA部署安装启动Spark HA浏览器查看 Spark 的 Web UI4.# 测试 Spark 集群总结 前言提示:这里可以添加本文要记录的大概内容:Hadoop的实时数据通过Spark Streaming读取kafka,需要先了解下Spark,
转载 2024-04-22 11:55:17
42阅读
本篇结构:前言详细过程一、前言在介绍了 Spark RPC 框架的大致内容后,下面以 Standalone 运行模式分析下 Spark 启动过程中的通信。启动过程中主要是 Master 和 Worker 之间的通信。首先 Worker 向 Master 发送注册消息,然后 Master 回复注册成功或者注册失败的消息,如果 Worker 收到注册成功的消息,就定时向 Master 发送心跳信息。二
转载 2024-07-03 20:00:32
81阅读
  • 1
  • 2
  • 3
  • 4
  • 5