代码示例:
转载 2018-03-06 17:24:00
136阅读
2评论
建筑物配置信息: 向hdfs写入json文件: 从hdfs中读取json文件:
转载 2018-03-14 00:41:00
92阅读
2评论
问题:为了将DataFrame中多列null值转换为0,采用na.fill方式,代码如下:_df.na.fill(0, Seq("col1", "col2", "col3"))在Spark2.1中运行该代码,发生报错Spark version 2.1.0 returns following error,报错信息如下
原创 2021-11-29 17:03:31
157阅读
测试spark版本: 备注:spark1.5中没有提供rdd.combineByKeyWithClassTag算子,但提供的有rdd.combineByKey算子(spark2.1中依然保留)。 使用示例:
转载 2018-03-04 22:27:00
123阅读
2评论
0: 设置系统登录相关Master要执行cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys如果用root用户sed -ri 's/^(PermitRootLogin ).*$/\1yes/' /etc/ssh/sshd_config编辑/etc/hosts1
原创 2017-02-24 12:02:06
6464阅读
如何从Spark2.1升级到Spark2.2
原创 2022-09-21 22:35:32
377阅读
这两天和同事一起在想着如何把一个表的记录减少,表记录包含了:objectid(主小区信息),gridid(归属栅格),height(高度),rsrp(主小区rsrp),n_objectid(邻区),n_rsrp(邻小区rsrp) 记录中一个主小区对应有多个邻区信息,在分组合并记录时: 1)先按照ob
转载 2018-03-24 14:45:00
156阅读
2评论
问题代码: 替换方案: 注意:如果你的业务可以,也可以把flatMap替换为map,我这里边是要求返回结果为一维List集合。
转载 2018-03-06 17:23:00
71阅读
2评论
一,只做一次的事情hadoop,spark,scala,maven,scala插件,1,下载hadoop,scala,spark,jdk。版本要适配,下面为一组搭配。下载后解压,然后配置环境变量hadoop-2.7.0scala-2.11.12spark-2.4.0JDK 1.8.0配置scala 环境变量 和 配置JDK环境变量 一样    系统变量新增 :  &n
本文主要介绍如何在非Kerberos的CDH中部署Spark2.1Spark SQL。
原创 2022-09-08 15:30:51
225阅读
1、安装scala的idea插件:file —— settings —— plugins ,输入scala,搜索插件下载安装,注意版本:2、配置scala的SDK:先下载解压scala,直接从linux服务器端解压一个就行file —— project structure —— library,配置之后,new就可以看到scala class了:配置spark和scala的环境变量:分别下载had
转载 2023-09-01 16:03:15
341阅读
目录方法一:更改pom.xml,添加Maven依赖(强烈建议使用这种方法)方法二:导入Spark的jars包 IDEA是一个非常完美的编译器,在IDEA搭建本地Spark环境需要提前配置好Scala和Java环境(看我之前的文章,有详细介绍)下面我将介绍两种方法搭建Spark环境。方法一:更改pom.xml,添加Maven依赖(强烈建议使用这种方法)(1)首先,需要创建一个maven项目
1.配置JDK   省略2.配置scala  省略3.配置hadoop  1.下载所需要的hadoop版本,并解压    https://archive.apache.org/dist/hadoop/common/           下载之后解压到一个目录下,例如:  F:\bigdata\software\hadoop-2.8.5  2.配置环境变量  
转载 2023-06-14 18:44:31
235阅读
IDEA连接spark集群写在前面一、安装Scala插件二、新建一个Maven项目三、编写pom.xml文件四、导入Scala环境五、导入spark的jar包六、编写Scala程序并提交给集群 写在前面我所使用的spark集群是基于docker搭建的,一共三个节点,一个master和两个slave,安装过程参考我之前的博客 宿主机使用的是windows10专业版一、安装Scala插件 搜索Sc
转载 2023-07-13 13:33:27
125阅读
Kerberos环境下的Spark2 SQL配置
原创 2022-09-08 15:30:40
286阅读
**Spark Idea配置** Spark Idea是一款功能强大的开发工具,为Spark应用程序的开发提供了丰富的功能和便捷的操作。本文将介绍如何在IDEA配置Spark Idea,并使用代码示例展示其使用方法。 ## 1. 下载安装Spark Idea插件 首先,我们需要下载和安装Spark Idea插件。打开IDEA,在插件市场中搜索"Spark Idea",然后点击安装按钮进行安装
原创 8月前
33阅读
函数代码: 使用spark-submit提交函数时,抛出异常: 解决方案: 把当前MySparkJob集成Serializable
转载 2018-03-14 23:24:00
424阅读
2评论
最近在做将spark的代码提交到远程当中遇到很多坑,各种各样的错误:我是在window当中使用idea开发将本地的代码提交到远程的spark集群上,没有用到local的模式去做(在实际的生产当中不会用到local的方式去做,所以没考虑)我是直接run的方式在idea当中提交代码的,这里采用的standlone的模式和 on yarn(yarn-client) 的模式,先说一下原理:我们在本地运行实
转载 2023-07-28 16:08:57
158阅读
前言:         都知道,小编前面已经简单介绍过在windows下hadoop和hive环境搭建和基本使用。这次的Spark有点突兀,但是也可以先忽略,重要的是先在IDEA中安装bigData插件连接hadoop已经HDFS,而后再简单介绍使用Spark操作Hive。Big Data Tools安装:1. 点击File, 选择Settings
interlljIDEA是一个编译环境IDE,有免费的社区版。百度可以下载,这里不赘述,有了编译器需要安装scala语言支持,见前面的博客。spark是一种类似多线程的结构,他的作用是将任务分发给多个节点一起计算提高速度,因此是有使用场景的,有的情况下不适用,比如迭代计算。配置spark步骤如下:第一步建立maven第二步填写groupid类似于项目说明点击下一步下一步直到finish,得到如下图
原创 2019-02-20 00:01:32
458阅读
  • 1
  • 2
  • 3
  • 4
  • 5