繁依Fanyi的博客_大数据

大数据随记 —— Hadoop 环境搭建

大数据系列文章：? 目录 ? 文章目录一、虚拟机环境准备1. 虚拟机网络模式设置为 NAT2. 克隆虚拟机3. 修改虚拟机为静态 IP4. 修改主机名5. 关闭防火墙6. 设置 ssh 免密码登录（只在 Master 这台主机操作）二、用户及文件权限配置1. 创建用户2. 配置用户具有 ro

hadoop

Hadoop

xml

原创 4月前 3 阅读

大数据随记 —— DataFrame 与 RDD 之间的相互转换

大数据系列文章：? 目录 ? 文章目录 ① 通过反射获取 RDD 内的 Scheme② 通过编程接口执行 Scheme 在 Spark SQL 中

sql

spark

apache

原创 4月前 32 阅读

大数据随记 —— DataFrame 数据操作

大数据系列文章：? 目录 ? 文章目录一、DataFrame SQL 数据操作二、DataFrame API 数据操作 DataFrame 数据操作有两种操作数据的方式，一种是使用 DataFrame所支持的 SQL 语法进行数据操作，另一种使用 DataFrame 提供的相关 API 对数据

sql

spark

数据操作

原创 4月前 32 阅读

大数据随记 —— DataFrame 的创建与 Maven 配置

大数据系列文章：? 目录 ? 文章目录一、开发环境准备二、创建 DataFrame基于 JSON 文件创建 DataFrame 示例

spark

JSON

sql

原创 4月前 106 阅读

大数据随记 —— RDD 的创建

大数据系列文章：? 目录 ? 文章目录一、从集合（内存）中创建 RDD二、从加载文件（外存）创建 RDD三、从 RDD 转换成新的 RDD 一、从

spark

数据集

文件创建

原创 4月前 105 阅读

大数据随记 —— Scala 环境搭建、插件安装

大数据系列文章：? 目录 ? 文章目录一、Scala 环境搭建1. 首先确保 JDK1.8 安装成功2. 下载对应的 Scala 安装文件。3. 解压 Scala 安装4. 配置 Scala 环境变量二、Scala 插件安装1. 插件离线安装（建议）2. 插件在线安装（可选）一、Scala

Scala

环境变量

scala

原创 4月前 270 阅读

大数据随记 —— Spark 基本安装及相关配置

大数据系列文章：? 目录 ? 文章目录〇、安装前准备一、Spark 安装1、配置 Spark 环境变量2、修改 Spark 配置文件a、配置 workers（slave

spark

hadoop

SPARK

原创 4月前 56 阅读

大数据随记 —— Hadoop 概述

大数据系列文章：? 目录 ? 文章目录一、Hadoop 概述二、 Hadoop 组件介绍三、Hadoop 版本介绍① Apache Hadoop② Cloudera Hadoop（CDH）③ HortonWorks Hadoop（HDP）一、Hadoop 概述 Hadoop 是 Apache

Hadoop

Apache

HDFS

原创 4月前 41 阅读

Linux基础 —— CentOS7 离线安装 MySQL

大数据系列文章：? 目录 ? 文章目录一、安装前准备1. MySQL rpm 包准备2. CentOS7 环境准备3. XShell 与 Xftp 二、开始安装1. 卸载 MySQL2. 发送 MySQL 安装包到节点主机上3. 安装 MySQL 安装包三、简单配置1. 配置开机启动2. 修

MySQL

mysql

安装包

原创 4月前 134 阅读

Linux基础 —— XShell 获取指南

大数据系列文章：? 目录 ? 文章目录〇、概述一、XShell 免费获取〇、概述在使用 Linux 虚拟机需要敲击命令时，当只有一台虚拟机还好，不用来回切换；但如果我们有多台虚拟机同时使用呢？搭建 Hadoop 集群需要多台虚拟机，只在虚拟机上管理时会有些麻烦，因此需要一个可以方便管理

Hadoop

安装过程

官网

原创 4月前 269 阅读

大数据环境搭建 —— CentOS 安装

大数据系列文章：? 目录 ? 文章目录一、环境准备1. 虚拟机准备2. 镜像准备二、镜像安装1. 虚拟环境准备2. 硬件配置3. C

VMware

CentOS

重启

原创 4月前 101 阅读

大数据系列教程 —— 目录

文章目录编程语言基础Linux 基础环境搭建HadoopHiveScalaSparkSpark CoreSpark SQLSpark Streaming ?问题随记环

大数据

环境搭建

MySQL

原创 4月前 47 阅读

大数据随记 —— Spark Core 与 RDD 简介

大数据系列文章：? 目录 ? 文章目录一、Spark Core二、RDD1. RDD 简介2. RDD 的特性（核心属性）Ⅰ）一系列的分区信息

数据

bc

Core

原创 4月前 58 阅读

大数据随记 —— WordCount 案例

大数据系列文章：? 目录 ? 文章目录一、WordCount 案例简介二、WordCount 实现1、WordCount 实现分析Ⅰ、Map 阶

hadoop

Text

apache

原创 4月前 45 阅读

大数据环境搭建 —— VMware Workstation 安装详细教程

大数据系列文章：? 目录 ? 文章目录一、下载安装包1. 下载 VMware Workstation2. 小技巧二、安装软件1. 软件安装2. 虚拟

VMware

下载安装

软件安装

原创 4月前 130 阅读

大数据随记 —— 利用Python分析快手APP全国大学生用户数据（2022 年初赛第四题）

大数据系列文章：? 目录 ? 文章目录一、题目描述0、背景1、题目一2、题目二3、题目三二、题解1、题目一详解 —— 学校学生使用频次最多的

数据

饼图

柱状图

原创 4月前 2 阅读

猿创征文 | 大数据比赛以及日常开发工具箱

VMware Workstation，相信大家都不陌生了，由于目前的大部分的电脑都是预装了 Windows ，不少和我一样为了避免安装

大数据

hadoop

分布式

Hadoop

Docker

原创精选 2022-12-28 11:47:21 314 阅读

大数据随记 —— 利用Python分析快手APP全国大学生用户数据（2022 年初赛第四题）

基于题目1中统计得到的各学校学生使用频次取出排名前5的学

python

大数据

java

数据

饼图

原创 2022-12-28 11:46:09 452 阅读

大数据环境搭建 —— CentOS 安装

目前常见的虚拟机有、等等，在这里我们使用。详细安装教程在下面的文章里。这里我们选择 CentOS 镜像，官网链接在这?：https://www.centos.org/不过官网

centos

linux

运维

VMware

CentOS

原创 2022-12-28 11:43:03 327 阅读

大数据随记 —— DataFrame 数据操作

DataFrame 也提供了特定的 API 让我们操作 DataFrame 中的数据，也被称为 DSL（D

spark

大数据

分布式

sql

数据操作

原创 2022-12-28 11:42:35 135 阅读

大数据随记 —— DataFrame 的创建与 Maven 配置

Spark 应用程序使用 SQLContext，可以通过 RDD、Hive 表、JSON 格式数

大数据

maven

spark

JSON

sql

原创 2022-12-28 11:42:29 226 阅读

大数据系列教程 —— 目录

大数据系列教程

hadoop

大数据

环境搭建

MySQL

原创 2022-12-28 11:41:54 144 阅读

大数据随记 —— RDD 的创建

Spark 会将集合中的数据拷贝到集群上去，形成一个分布式的数据集合，也就是形成一个 RDD。也就是说，集合中的部分数据会到

大数据

hadoop

spark

数据集

文件创建

原创 2022-12-28 11:38:53 130 阅读

Linux基础 —— XShell 免费获取指南

在使用 Linux 虚拟机需要敲击命令时，当只有一台虚拟机还好，不用来回切换；但如果我们有多台虚拟机同时使用呢？搭建 Hadoop 集群需要多台虚拟机，只在虚拟机上管理时会有些麻烦，因此需要一个可以方便管理远程管理服务器的工具 —— XShell。（当然不选这个也是可以

linux

hadoop

zookeeper

Hadoop

安装过程

原创 2022-12-28 11:38:53 291 阅读

大数据随记 —— Spark Core 与 RDD 简介

弹性分布式数据集（RDD，Resilient Distributed Datasets），它具备像 MapReduce 等数据流模型的容错特性，能在并行计算中高效地来创建。...

spark

大数据

scala

数据

bc

原创 2022-12-28 11:38:49 225 阅读

大数据随记 —— Hadoop 概述

Hadoop 是 Apache 基金会所开发的分布式系统基础架构，可以让用户在不了解分布式底层细节的情况下，开发分布式程序。Hadoop 的思

hadoop

大数据

hdfs

Hadoop

Apache

原创 2022-12-28 11:37:48 103 阅读

大数据随记 —— Scala 环境搭建、插件安装

打开 IDEA，在左上角找到 File->在下拉菜单中点击 Setting…->点击 Plugins->点击右下角 Install plugin from disk…进入 Scala 下载网址，下载对应

scala

大数据

开发语言

Scala

环境变量

原创 2022-12-28 11:37:27 276 阅读

大数据随记 —— Spark 基本安装及相关配置

输入 http://master:8080/，或者主节点ip:8080 进入Master 资源监控 Web UI 界面。② 修改 spark-env.sh 文件，添加 JAVA_HOME

大数据

spark

hadoop

SPARK

原创 2022-12-28 11:37:23 444 阅读

问题随记 —— file /usr/share/mysql/charsets/README from install of MySQL-server-5.1.73-1.glibc23.x86_64 c

安装 MySQL 与 glibc 冲突，报错如下可以看到是与冲突了，删除该包即可。

mysql

数据库

java

bc

MySQL

原创 2022-12-28 11:37:14 173 阅读

Linux基础 —— CentOS7 离线安装 MySQL

① 打开 MySQL 下载页面，选择自己想要的版本即可② 找到自己想要安装的版本，点击下载即可。详细安装方法可见下文?：白嫖过程可见下文?：为了保险起见，

mysql

linux

数据库

MySQL

安装包

原创 2022-12-28 11:36:38 314 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

繁依Fanyi的博客

大数据随记 —— Hadoop 环境搭建

大数据随记 —— DataFrame 与 RDD 之间的相互转换

大数据随记 —— DataFrame 数据操作

大数据随记 —— DataFrame 的创建与 Maven 配置

大数据随记 —— RDD 的创建

大数据随记 —— Scala 环境搭建、插件安装

大数据随记 —— Spark 基本安装及相关配置

大数据随记 —— Hadoop 概述

Linux基础 —— CentOS7 离线安装 MySQL

Linux基础 —— XShell 获取指南

大数据环境搭建 —— CentOS 安装

大数据系列教程 —— 目录

大数据随记 —— Spark Core 与 RDD 简介

大数据随记 —— WordCount 案例

大数据环境搭建 —— VMware Workstation 安装详细教程

大数据随记 —— 利用Python分析快手APP全国大学生用户数据（2022 年初赛第四题）

猿创征文 | 大数据比赛以及日常开发工具箱

大数据随记 —— 利用Python分析快手APP全国大学生用户数据（2022 年初赛第四题）

大数据环境搭建 —— CentOS 安装

大数据随记 —— DataFrame 数据操作

大数据随记 —— DataFrame 的创建与 Maven 配置

大数据系列教程 —— 目录

大数据随记 —— RDD 的创建

Linux基础 —— XShell 免费获取指南

大数据随记 —— Spark Core 与 RDD 简介

大数据随记 —— Hadoop 概述

大数据随记 —— Scala 环境搭建、插件安装

大数据随记 —— Spark 基本安装及相关配置

问题随记 —— file /usr/share/mysql/charsets/README from install of MySQL-server-5.1.73-1.glibc23.x86_64 c

Linux基础 —— CentOS7 离线安装 MySQL

欢迎