大数据系列文章:? 目录 ? 文章目录 一、虚拟机环境准备1. 虚拟机网络模式设置为 NAT2. 克隆虚拟机3. 修改虚拟机为静态 IP4. 修改主机名5. 关闭防火墙6. 设置 ssh 免密码登录(只在 Master 这台主机操作) 二、用户及文件权限配置1. 创建用户2. 配置用户具有 ro
大数据系列文章:? 目录 ? 文章目录 ① 通过反射获取 RDD 内的 Scheme② 通过编程接口执行 Scheme 在 Spark SQL 中
大数据系列文章:? 目录 ? 文章目录 一、DataFrame SQL 数据操作二、DataFrame API 数据操作 DataFrame 数据操作有两种操作数据的方式,一种是使用 DataFrame所支持的 SQL 语法进行数据操作,另一种使用 DataFrame 提供的相关 API 对数据
大数据系列文章:? 目录 ? 文章目录 一、 开发环境准备二、 创建 DataFrame基于 JSON 文件创建 DataFrame 示例
大数据系列文章:? 目录 ? 文章目录 一、从集合(内存)中创建 RDD二、从加载文件(外存)创建 RDD三、从 RDD 转换成新的 RDD 一、从
大数据系列文章:? 目录 ? 文章目录 一、Scala 环境搭建1. 首先确保 JDK1.8 安装成功2. 下载对应的 Scala 安装文件。3. 解压 Scala 安装4. 配置 Scala 环境变量 二、Scala 插件安装1. 插件离线安装(建议)2. 插件在线安装(可选) 一、Scala
大数据系列文章:? 目录 ? 文章目录 〇、安装前准备一、Spark 安装1、配置 Spark 环境变量2、修改 Spark 配置文件a、配置 workers(slave
大数据系列文章:? 目录 ? 文章目录 一、Hadoop 概述二、 Hadoop 组件介绍三、Hadoop 版本介绍① Apache Hadoop② Cloudera Hadoop(CDH)③ HortonWorks Hadoop(HDP) 一、Hadoop 概述 Hadoop 是 Apache
大数据系列文章:? 目录 ? 文章目录 一、安装前准备1. MySQL rpm 包准备2. CentOS7 环境准备3. XShell 与 Xftp 二、开始安装1. 卸载 MySQL2. 发送 MySQL 安装包到节点主机上3. 安装 MySQL 安装包 三、简单配置1. 配置开机启动2. 修
大数据系列文章:? 目录 ? 文章目录 〇、概述一、XShell 免费获取 〇、概述 在使用 Linux 虚拟机 需要敲击命令时,当只有一台虚拟机还好,不用来回切换;但如果我们有多台虚拟机同时使用呢? 搭建 Hadoop 集群需要多台虚拟机,只在虚拟机上管理时会有些麻烦,因此需要一个可以方便管理
大数据系列文章:? 目录 ? 文章目录 一、环境准备1. 虚拟机准备2. 镜像准备 二、镜像安装1. 虚拟环境准备2. 硬件配置3. C
文章目录 编程语言基础Linux 基础环境搭建HadoopHiveScalaSparkSpark CoreSpark SQLSpark Streaming ?问题随记环
大数据系列文章:? 目录 ? 文章目录一、Spark Core二、RDD1. RDD 简介2. RDD 的特性(核心属性)Ⅰ)一系列的分区信息
大数据系列文章:? 目录 ? 文章目录一、WordCount 案例简介二、WordCount 实现1、WordCount 实现分析Ⅰ、Map 阶
大数据系列文章:? 目录 ? 文章目录 一、下载安装包1. 下载 VMware Workstation2. 小技巧 二、安装软件1. 软件安装2. 虚拟
大数据系列文章:? 目录 ? 文章目录 一、题目描述0、背景1、题目一2、题目二3、题目三 二、题解1、题目一详解 —— 学校学生使用频次最多的
VMware Workstation,相信大家都不陌生了,由于目前的大部分的电脑都是预装了 Windows ,不少和我一样为了避免安装
基于题目1中统计得到的各学校学生使用频次取出排名前5的学
目前常见的虚拟机有 、等等,在这里我们使用 。详细安装教程在下面的文章里。这里我们选择 CentOS 镜像,官网链接在这?:https://www.centos.org/不过官网
DataFrame 也提供了特定的 API 让我们操作 DataFrame 中的数据,也被称为 DSL(D
Spark 应用程序使用 SQLContext,可以通过 RDD、Hive 表、JSON 格式数
大数据系列教程
Spark 会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是形成一个 RDD。也就是说,集合中的部分数据会到
在使用 Linux 虚拟机 需要敲击命令时,当只有一台虚拟机还好,不用来回切换;但如果我们有多台虚拟机同时使用呢?搭建 Hadoop 集群需要多台虚拟机,只在虚拟机上管理时会有些麻烦,因此需要一个可以方便管理远程管理服务器的工具 —— XShell。(当然不选这个也是可以
弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像 MapReduce 等数据流模型的容错特性,能在并行计算中高效地来创建。...
Hadoop 是 Apache 基金会所开发的分布式系统基础架构,可以让用户在不了解分布式底层细节的情况下,开发分布式程序。Hadoop 的思
打开 IDEA,在左上角找到 File->在下拉菜单中点击 Setting…->点击 Plugins->点击 右 下 角 Install plugin from disk…进入 Scala 下载网址,下载对应
输入 http://master:8080/,或者 主节点ip:8080 进入Master 资源监控 Web UI 界面。② 修改 spark-env.sh 文件,添加 JAVA_HOME
安装 MySQL 与 glibc 冲突,报错如下可以看到是与 冲突了,删除该包即可。
① 打开 MySQL 下载页面,选择自己想要的版本即可② 找到自己想要安装的版本,点击下载即可。详细安装方法可见下文?:白嫖过程可见下文?:为了保险起见,
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号