Spark是一个通用的大规模数据快速处理引擎,一个大数据分布式处理框架。Spark之所以能被迅速的应用到各种大数据处理场景下,与其为Batching processing,Streaming Processing,Ad-hoc Query等三大大数据处理问题提供了近乎完美的解决方案息息相关。在Spark中,使用Spark SQL,Spark Streaming,MLlib,Graphx很好的解决了
转载 6月前
9阅读
spark默认会使用基于derby数据库存储元数据的hive,数据文件存储位置由spark.sql.warehouse.dir参数指定(默认为当前目录)。 比如当我们在/spark/目录下调用spark-shell,并且用Dataset的saveAsTable方法持久化一个表后。会发现在/spark目录下多出了:一个文件:derby.log,记录了derby数据库相关日志信息;一个目录:metas
转载 2023-08-24 19:25:45
184阅读
# HDP Spark 版本 ## 引言 Apache Spark 是一个快速、通用、可扩展的大数据处理和分析引擎。它提供了一个简单且高效的方式来处理大规模数据集,并且可以在内存中进行迭代计算。HDP(Hortonworks Data Platform)是一个开源的大数据平台,提供了集成的Hadoop、Spark和其他大数据工具。本文将介绍HDP中的Spark版本,并提供代码示例来帮助读者更好
原创 2024-01-31 04:16:34
57阅读
写在前面知识点开始动手UbuntuJavaHADOOP坑们 写在前面一直在上学,所以我接触到的偏工程的项目不是特别多,大部分都是基础而范范的理论。而在这学期的一门大数据系统和大规模数据分析的课程,让我有机会接触到了一部分目前广泛应用于业界的开源项目,这篇文章就是关于第一次课程作业的,也是我的第一篇博文。希望能真真正正的积累一些东西,也算对自己的学习负责。在文章中尽量少涉及概念,主要记录自己的工作
转载 2024-07-16 18:59:40
33阅读
Executor参数spark.executor.cores该参数表示每个Executor(任务) 可利用的CPU核心数。其值不宜设定过大,因为Hive的底层以HDFS存储,而HDFS有时对高并发写入处理不太好,容易造成race condition (竞争状态)。根据我们的实践,设定在3~6之间比较合理。 假设我们使用的服务器单节点有32个CPU核心可供使用。考虑到系统基础服务和HDFS等组件的余
转载 2024-09-29 11:20:20
29阅读
SharedPreferences轻量数据存储有时候我们做的App中不需要本地保存数据,但是有些小的配置参数需要记录,如果中Sqlite就感觉有点太重了,也比较麻烦,所以今天我们来看看Android系统中轻量数据存储SharedPreferencesSharedPreferences介绍 微卡智享SharedPreferences内部是以XML的形式进行数据存储的,采用Key/value的方式
转载 2023-08-18 22:14:36
117阅读
# HDP配置Hive on Spark 在Hadoop生态系统中,Hive是一种数据仓库工具,它提供了一种类似于SQL的语言来查询和分析大规模数据。而Spark是一个快速、通用的数据处理引擎,它提供了强大的数据处理能力和更快的执行速度。 在HDP中,Hive on Spark是一种集成了Hive和Spark的解决方案,它可以让用户在Hive中使用Spark作为计算引擎来执行查询和分析。本文将
原创 2024-02-24 04:12:13
95阅读
# HDPSPARK的使用 ## 1. 流程概述 在HDP中使用SPARK主要包括以下步骤: | 步骤 | 描述 | | ---- | ---- | | 步骤1 | 安装HDP和相关组件 | | 步骤2 | 配置SPARK环境 | | 步骤3 | 准备数据 | | 步骤4 | 编写SPARK应用程序 | | 步骤5 | 提交和执行应用程序 | 下面将详细介绍每个步骤所需的操作和代码。
原创 2024-02-02 07:27:10
177阅读
安装环境 Ubuntu11.10 hadoop2.2.0 Spark0.9.1    Spark的Standalone安装还得很容易的,但是我看他们写的不是很详细,也可能是我太菜了,有些看不懂,然后经过自己的摸索感觉有点感觉了,写下来记录下。    我下载Spark0.9.1版(目前最新版,和之前的0.8.1目录中有些差别),因为环境为Hadoop2.2.0
本文记录使用ambari-server安装HDP的过程,对比于使用cloudera-manager安装CDH,不得不说ambari的易用性差的比较多~_~,需要用户介入的过程较多,或者说可定制性更高。首先、安装之前,在每个主机节点上执行下面命令,已清除缓存,避免一些repo原因导致的安装失败。yum clean all下面开始安装过程:一、安装过程:1,登录ambari-server管理界面,用浏
转载 2023-06-25 23:08:05
713阅读
by 三江小渡 升级分为两种,一种是集群布局不发生任何变化的,这种非常简单,十分类似安装一次新的hadoop程序;另外一种是集群布局发生变化的,这种要非常小心,因为牵扯数据安全,要让hdfs内的数据完整的迁移的新版本,所以要仔细。两种都简单的分为几步: 1、在执行新一轮的升级前,要确保前一次升级已经定妥,用一下命令查看:$ hadoop dfsadmin -upgrad
转载 2023-11-28 06:24:11
73阅读
1.1分配更多资源1.1.1 分配哪些资源Executor的数量 每个Executor所能分配的CPU数量 每个Executor所能分配的内存量 Driver端分配的内存数量1.1.2 在哪里分配这些资源在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数: /usr/local/spark/bin/spark-submit –class cn.s
在大数据领域,Hadoop集群和Spark Hive是两个十分常见的工具。随着业务需求的变化,有时候需要将现有的Hadoop集群更换为Spark Hive,以提高数据处理效率和性能。本文将介绍如何将Hadoop集群更换为Spark Hive,并挂接Spark Hive,以解决实际问题。 首先,我们需要了解Hadoop集群和Spark Hive的基本概念。Hadoop是一个分布式存储和计算框架,而
原创 2024-03-03 04:11:06
27阅读
# HDP Spark与HBase的Kerberos认证指南 在现代大数据处理框架中,Apache Hadoop生态系统以其强大和灵活性得到了广泛应用。而Kerberos认证则是保障数据安全的重要一环。本文旨在指导初学者如何实现HDP Spark与HBase的Kerberos认证,并为您提供详细的步骤和代码示例。 ## 流程概述 成功实现HDPSpark与HBase的Kerberos认证,需
原创 10月前
63阅读
Spark 2.0.0在Spark2.0之后,Spark Session也是Spark 的一个入口, 为了引入dataframe和dataset的API,同时保留了原来SparkContext的functionality, 如果想要使用 HIVE,SQL,Streaming的API, 就需要Spark Session作为入口。SparkSession spark = SparkSession.bu
# HDP集群中的Spark日志位置详解 在使用Hortonworks Data Platform (HDP) 集群时,Spark作为一种流行的分布式计算框架,广泛应用于数据处理、数据分析以及机器学习等场景。了解Spark的日志信息,对于监控和调试任务至关重要。本文将介绍HDP集群中Spark日志的位置,并提供代码示例以便于读者理解和操作。 ## Spark日志的类型 Spark生成的日志主
原创 9月前
40阅读
1.原理概述1.1理论Spark是用Scala开发的。Spark的Scala代码调用了很多java api。Scala也是运行在JVM中的,所以Spark也是运行在JVM中的。1.2JVM可能会产生的问题      内存不足——RDD的缓存、task运行定义的算子函数,可能会创建很多对象,占用大量的内存。处理不当,可能导致JVM出问题。1.3堆内存作用:存放项目中创建
转载 2024-06-29 08:58:50
32阅读
1.写在前面在spark streaming+kafka对流式数据处理过程中,往往是spark streaming消费kafka的数据写入hdfs中,再进行hive映射形成数仓,当然也可以利用sparkSQL直接写入hive形成数仓。对于写入hdfs中,如果是普通的rdd则API为saveAsTextFile(),如果是PairRDD则API为saveAsHadoopFile()。当然高版本的sp
转载 2023-07-14 16:03:13
0阅读
基于虚拟机搭建hdp集群,以下是我搭建集群的虚拟机环境说明一.环境预配置参照官网配置步骤:1. 配置hosts与主机名vim /etc/hosts # 添加以下内容(三台) 192.168.127.121 hadoop121 192.168.127.122 hadoop122 192.168.127.123 hadoop123 设置主机名 hostnamectl set-hostname had
转载 2023-07-12 10:11:33
159阅读
第1章 Hadoop概述第1章 Hadoop概述1.1 Hadoop是什么1.2 Hadoop优势(4高)1.3 Hadoop 组成(面试重点)1.3.1 HDFS架构概述1.3.2 YARN 架构概述1.3.3 MapReduce架构概述1.3.4 HDFS、YARN、MapReduce 三者关系1.4 大数据生态体系1.5 推荐系统框架图 第1章 Hadoop概述1.1 Hadoop是什么H
转载 2023-08-18 19:24:49
87阅读
  • 1
  • 2
  • 3
  • 4
  • 5