Spark知识图谱如下:1. Spark 基础1.1 Spark 为何物Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。Hadoop 之父 Doug Cutting 指出:Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的 MapRedu
Hadoop 入门教程(Java操作HDFS)
原创
2022-07-07 11:13:55
599阅读
安装修改etc/hadoop下面的配置 获取JAVA_HOME位置echo $JAVA_HOMEhadoop-env.sh#export JAVA_HOME=${JAVA_HOME}export JAVA_HOME=/root/jdk1.8.0_151core-site.xml<configuration> <property> <name>fs
原创
2022-08-04 19:42:43
103阅读
实验目的要求 目的:(1)掌握数据仓库工具Hive的使用;要求:掌握数据仓库Hive的使用;能够正常操作数据库、表、数据; 实验环境 五台独立PC式虚拟机;主机之间有
转载
2023-07-25 09:52:04
146阅读
教程目录0x00 教程内容0x011.0x021.2.0xFF 总结0x00 教程内容学习前提:有一定的Scala基础、基本的 Linux 基础,对Spark有一定的概念,并且安装好了Spark环境。其他参考教程:1、分布式集群环境之Scala的安装与配置(Centos7)2、分布式集群环境之Spark的安装与配置(Centos7)0x011.Spark-
原创
2022-01-30 09:28:21
744阅读
# Spark菜鸟入门教程
Apache Spark是一个快速、通用、易于使用的大数据处理引擎。它能够处理大规模的数据集,并提供丰富的API供开发者使用。本文将介绍如何构建一个简单的Spark应用程序,包含基本的代码示例以及如何创建旅行图和序列图,以帮助初学者理解Spark的基本概念。
## Spark环境搭建
在开始之前,确保你已经安装了Java 8及以上版本、Scala(可选)和Apac
原创
2024-08-29 08:54:05
178阅读
教程目录0x00 教程内容0x011.0x021.2.0xFF 总结0x00 教程内容学习前提:有一定的Scala基础、基本的 Linux 基础,对Spark有一定的概念,并且安装好了Spark环境。其他参考教程:1、分布式集群环境之Scala的安装与配置(Centos7)2、分布式集群环境之Spark的安装与配置(Centos7)0x011.Spark-Shell是 Spark 自带的一个 Scala 交互 Shell ,可以以脚本方式进行交互式执行,类似直接用 Python 及其
原创
2021-06-10 18:17:04
659阅读
# Hadoop编程入门教程
作为一名经验丰富的开发者,我将帮助你快速了解并入门Hadoop编程。Hadoop是一个开源的分布式计算系统,适用于大规模数据处理。下面我将为你介绍Hadoop编程的基本步骤,并提供相应的代码示例。
## 整体流程
首先让我们来看一下学习Hadoop编程的整体流程:
| 步骤 | 描述 |
|------|------
原创
2024-05-20 11:20:36
80阅读
Apache Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。可以让用户
原创
2023-06-04 11:40:49
97阅读
一、基础简介1.生态系统 2.Spark生态系统组件的应用场景 3.Spark运行架构 二、基本流程图和特点 1.为应用构建起基本的运行环境,即由Driver创建一个SparkContext进行资源的申请、任务的分配和监控。 2.资源管理器为Executor分配资源,并启动Executor进程 3.SparkContext根据RDD的依赖关系构建DA
转载
2023-05-24 11:45:55
264阅读
大数据是互联网发展的方向,大数据人才是未来的高薪贵族。随着大数据人才的供不应求,大数据人才的薪资待遇也在不断提升。如果你也想进入大数据行业,也想学习大数据技术,大数据讲师认为,可以先从spark技术开始。 一、Spark是什么Spark是一个微型的Java Web框架,它的灵感来自于Sinatra,它的目的是让你以zui小的代价创建出一个Java Web应用。二、使用SparkSpark
转载
2023-08-31 19:06:27
42阅读
hadoop基础学习Ubuntu基本操作快捷键常用命令目录与权限目录权限软件包的操作国内软件包源一般选取清华或者163等本地软件源制作Hadoop安装JDK,hadoop安装配置hadoop 基础与配置三种模式独立模式配置伪分布模式配置配置脚本配置SSH格式化HDFS系统完全分布模式配置(在s0上配置,拷贝到其它虚拟机上) Ubuntu基本操作这是一些基本的命令!其实在hadoop文件系统中的命
转载
2023-07-29 09:13:51
126阅读
假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动HADOOP1. 进入HADOOP_HOME目录。2. 执行sh bin/start-all.sh关闭HADOOP1. 进入HADOOP_HOME目录。2. 执行sh bin/stop-all.sh文件操作Hadoop使用的是HDFS
转载
2023-05-22 17:38:32
37阅读
环境 spark-1.6 python3.5一、python开发spark原理使用python api编写pyspark代码提交运行时,为了不破坏spark原有的运行架构,会将写好的代码首先在python解析器中运行(cpython),Spark代码归根结底是运行在JVM中的,这里python借助Py4j实现Python和Java的交互,即通过Py4j将pyspark代码“解析”到JVM中去运
转载
2023-08-13 09:22:36
392阅读
由于Scala才刚刚开始学习,还是对python更为熟悉,因此在这记录一下自己的学习过程,主要内容来自于spark的官方帮助文档,这一节的地址为:http://spark.apache.org/docs/latest/quick-start.html文章主要是翻译了文档的内容,但也在里边加入了一些自己在实际操作中遇到的问题及解决的方案,和一些补充的小知识,一起学习。环境:Ubuntu 16.04
转载
2023-12-02 23:43:34
23阅读
前言hadoop本身是不支持lzo压缩格式的,所以在对类库进行查询时,里面是不会显示lzo是否支持,如何让hadoop能够支持lzo压缩呢?下面我们开始正题!查询环境命令 输入hadoop checknative 笔者使用的hadoop版本为2.7.2,所以要使用lzo压缩组件必须对组件里的hadoop版本进行修改编译。这里就利用maven来对其进行改造。同理很多版本问题,可以利用此方法来解决。环
转载
2023-05-22 12:43:39
83阅读
查看命令用法cd /usr/local/hadoop
./sbin/start-dfs.sh查看支持的命令./bin/hdfs dfs查看具体的命令用法./bin/hdfs dfs help putHDFS操作目录操作为Hadoop创建用户目录./bin/hdfs dfs -mkdir -p /user/hadoop查看当前目录,创建新目录删除新建的目录文件操作新建文件 用vim编辑,最后以:wq
转载
2023-08-18 19:42:12
58阅读
首先复习一下hadoop中hdfs常用的命令/**
* hadoop fs -mkdir 创建HDFS目录
* hadoop fs -ls 列出HDFS目录
* hadoop fs -copyFromLocal 使用-copyFromLocal 复制本地(local)文件到HDFS
* hadoop fs -put 使用-put 复制本地(local)文件到HDFS
*
转载
2023-07-05 23:47:31
43阅读
前言Hadoop 在大数据技术体系中的地位至关重要,Hadoop 是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。这是一篇入门文章,Hadoop 的学习方法很多,网上也有很多学习路线图。本文的思路是:以安装部署 Apache Hadoop2.x 版本为主线,来介绍 Hadoop2.x 的架构组成、各模块协同工作原理、技术细节。安装不是目的,通过安装认识H
转载
2023-07-23 17:37:09
0阅读
1. 执行命令将输入文件拷贝到分布式文件系统:$ bin/hadoop fs -put conf input$ bin/hadoop fs -get output output
$ cat output/*在分布式文件系统上查看输出文件:$ bin/hadoop fs -cat output/*完成全部操作后,停止守护进程:$ bin/stop-all.sh2. Hadoop集群安装Hadoop集
转载
2023-09-14 13:19:37
111阅读