课程内容:01.hive-原理02.hive-部署03.hivesql-DDL04.hivesql-分区、D
转载 2021-08-05 14:52:25
575阅读
概论 在高层中,每个 Spark 应用程序都由一个驱动程序(driver programe)构成,驱动程序在集群上运行用户的mian 函数来执行各种各样的并行操作(parallel operations)。Spark 的主要抽象是提供一个弹性分布式数据集(RDD),RDD 是指能横跨集群所有节点进行并行计算的分区元素集合。 RDDs 从 Hadoop 的文件系统中的一个文件中创建而来(或其他 H
转载 2024-02-06 21:57:42
39阅读
Spark作为一门新推出来大数据技术,成长迅速,前景可期。Spark是对Hadoop MapReduce的补充。随着硬件设备的降价,企业对内存计算需求越来越旺盛,基于内存运算的Spark, 已更好地适用于数据挖掘与机器学习等运算上。Spark 使用Scala 语言实现,Scala可以像操作本地集合对象一样轻松地操作分布式数据集。由于学习需要,我最近一直在自学Spark,进展缓慢,困难重重,差点放弃
转载 2023-07-18 22:57:10
56阅读
应用场景离线场景:实现离线数据仓库中的数据清洗、数据分析、即席查询等应用 比较成熟,工作中主要的应用场景使用Spark对各种数据源数据进行处理:Hive、RDBMS、文件Hive数仓常见处理引擎:Spark、Impala、PrestoImpala:底层是C语言,性能最好,SQL开发,集成Hive或者Hbase,语法兼容性较差Presto:底层基于JVM,性能其次,SQL开发,集合各种数据库数据源,
转载 2023-05-22 15:57:23
73阅读
视频目录:Spark入门|01Spark概念架构Spark入门|02Spark集群搭建Spark入门
原创 2023-01-11 07:22:54
220阅读
视频目录: Spark入门| 01 Spark概念架构 Spark入门| 02 Spark集群搭建\
原创 2023-01-10 10:58:39
234阅读
Spark生态圈1. Spark Core(重点)1.1 Spark特点1.2 spark的体系构架1.3 spark的安装配置1.3.1 准备工作:1.3.2 伪分布1.3.3 全分布1.3.4 HA1.3.5 spark任务的提交1.4 Spark Shell1.4.1 两种运行模式1.4.2 wordcount案例1.5 RDD弹性分布式数据集(重点)1.5.1 RDD特性1.5.2 Tr
转载 2023-08-07 22:09:26
565阅读
核心内容: 1、RDD的一个实战案例OK,今天是2016年12月4日了,12月份注定不会太轻松,很多事情就像是多线程一样并行的进行执行,好的,进入本次博客的正题! RDD本身有3种操作方式: ①基本的Transformation(数据状态的转换即所谓的算子) 如:map、flatMap、textFile等等。 ②Action(触发具体的Job,获得相应的结果) 如:reduce、coll
转载 2023-10-26 13:39:34
448阅读
一、课程目录:Scala基础与实践(上)Scala基础与实践(中)Scala基础与实践(下)Spark概述与编程模型(上)Spark概述与编程模型(下)深入Spark内核(上)深入Spark内核(下)Spark Streaming原理与实践(上)Spark Streaming原理与实践(下)Shark原理与实践(上)Shark原理与实践(下)Machine Learning on SparkSpa
原创 2014-11-09 15:08:24
2609阅读
3点赞
1评论
  ——/Spark视频教程 Spark Streaming开发进阶课/├──day1| ├──2020-12-14 15-43-31 SparkStreaming入门.mp4 175.01M| ├──Spark Streaming课堂笔记.zip 172.37kb| └──spark-streaming-bk201.zip 16.95kb├──day2| ├──2020-12-15 09-05-
原创 2021-08-14 10:56:30
144阅读
spark JAVA 开发环境搭建及远程调试以后要在项目中使用Spark 用户昵称文本做一下聚类分析,找出一些违规的昵称信息。以前折腾过Hadoop,于是看了下Spark官网的文档以及 github 上 官方提供的examples,看完了之后决定动手跑一个文本聚类的demo,于是有了下文。1. 环境介绍本地开发环境是:IDEA2018、JDK8、windows 10。远程服务器 Ubuntu 16
转载 2023-08-10 06:04:50
364阅读
# Spark教程 - Java ## 引言 Apache Spark是一个开源的、高性能的通用计算引擎,能够处理大规模数据处理任务。它提供了一种简单且易于使用的API,用于开发大规模数据处理、机器学习和图形计算等应用程序。本教程将介绍如何使用Java编程语言使用Spark。 ## 安装与配置 首先,你需要安装Java开发工具包(JDK),并确保它已正确配置在你的操作系统中。然后,你可以下载并
原创 2023-12-17 09:20:33
101阅读
利用电影观看记录数据,进行电影推荐。 文章目录利用电影观看记录数据,进行电影推荐。准备1、任务描述:2、数据下载3、部分数据展示实操1、设置输入输出路径2、配置spark3、读取Rating文件4、读取movie文件5、保存结果6、结果你可能会遇到的问题问题一:结果输出目录已存在问题二:缺少hadoop环境变量 准备1、任务描述:在推荐领域有一个著名的开放测试集,下载链接是:http://grou
转载 2023-11-13 16:41:27
205阅读
 大数据基础视频教程目录:1、Scala语言环境安装、Scala的基本语法2、常用方法联系3、面向对象、模式匹配4、Actor、柯里化、隐式转换5、泛型、Akka6、Spark集群安装、Spark任务提交、Spark实现WorldCount上传任务7、RDD的基本概念、常用算子练习8、案例练习9、Spark集群启动流程和任务提交流程、案例练习10、RDD的依赖关系、Stage划分、任务的
转载 2023-11-15 19:18:02
547阅读
JavaJAVA环境变量设置到“WINDOWS系统变量"中是最简单的方式,也是对多用户环境下有利的方式。 随着JAVA版本的升级、WINDOWS操作系统的升级、ECLIPSE愈加智能化。一些设置不是必须的,比如JAVA_HOME的设置。 下面是有兼容性的JAVA环境变量设置方式。1.软件环境如下所示:操作系统 WINDOWS 10 JAVA JDK 1.82.WINDOW环境变量对话框位置:打开
转载 2024-06-25 21:42:09
99阅读
本文介紹如何基于SparkJava来实现一个单词计数(Word Count)的程序。创建工程创建一个Maven工程,pom.xml文件如下:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=
转载 2023-06-11 15:59:50
233阅读
Spark Shell 基础 Spark 的 shell 作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习 API。它 可以使用 Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。在 Spark 目录里使用下面的方式开始运行:./bin/spark-shellSpark 最主要的抽象是叫Resilient Distributed Datase
转载 2024-06-25 12:09:00
34阅读
java版本:1、自定义实现排序key,实现Ordered接口,根据指定的排序条件,重写compare 、less、greater等方法,封装多个字段进行排序;  // 代码示例其中CategorySortKey为自定义的keyJavaPairRDD<CategorySortKey, String> sortedCategoryCountRDD = sortKey2countRDD.s
转载 2023-06-14 21:47:47
345阅读
一、声母g k h的教学把握以下几点(同步小学一年级语文教材拼音第5课g k h)1.正确理解和记忆拼音口诀。 分析:A.三个声母的教学:教学口诀,利用图片中实物的形联想字母的字形,同时图片里分别用“哥、蝌、喝”记住g k h的读音。9 是0-9十个数字中最大的,所以大家叫9是“哥哥”。视频课程里有动画书写,让孩子一看就明白,都无需多言。 2.
全文共10887字,预计阅读时间70分钟。第二章  Spark入门介绍与基础案例1.  第一步:下载Apache Spark安装包    1.1  Spark的目录和文件2.  第二步:使用Scale或者PySpark Shell    2.1  使用本地机器3.  第三步:理解Spark应用的概念
  • 1
  • 2
  • 3
  • 4
  • 5