秋招第三弹:oppo一面-大数据开发工程师写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全。时长:70min左右自我介绍问项目,问的不深,大概一些设计的数据类型、业务线、业务逻辑怎么处理的、怎么处理的脏数据、模型怎么设计的?数仓建模这个问题也是比较重要,被问到的几率也很高spark OOM
https://github.com/aliyun/MaxCompute-Spark/wiki/02.-Spark-on-Dataworks ...
转载 2021-08-16 11:01:00
176阅读
目录一、DataFrame是什么二、DataSet是什么三、DataFrame三、RDD、DataFrame、DataSet之间的互相转换四、spark读取1、对于Hive2、对文件操作3、对数据库操作五、hint与AQE六、spark sql是如何选择join策略的?1、SparkSQL支持三种Join算法2、Hash Join3、Broadcast Hash Join 4、Shuff
转载 2024-05-15 13:35:43
41阅读
序言整理一下SparkSql DataSet Api的使用方式与心得cuiyaonan2000@163.com参考资料: Dataset (Spark 3.2.1 JavaDoc)Dataset (Spark 3.2.1 JavaDoc) Getting Started - Spark 3.2.1 Documentation  -----官网的用例背景在使用sparksql的时候,应用
转载 2024-04-15 23:54:55
35阅读
1 概述   目前的数仓为离线数仓,因此DataWorks开发主要涉及到离线数据集成和数据模型开发,因此本节也是分两部分来描述2 DataWorks开发的准备工作2.1 工作空间的创立   工作空间是数据集成,数据开发的基础。本数仓通过工作空间,来实现数仓的分层,即每个工作空间作为数仓的一个物理分层。工作空间列表跳转链接登录阿里云 DataWorks控制台——工作空间列表点击创建空间即可,不过该权
原创 精选 2023-02-09 00:12:39
993阅读
3点赞
# 数据工程中的ODPS Spark参数传递与流程管理 在现代数据工程领域,阿里巴巴的MaxCompute(原ODPS)平台因其强大的数据处理能力而广受欢迎。其中,Spark作为一种高效的大数据处理框架,常被用于ODPS上进行数据分析和处理。本文将介绍如何在ODPS上使用Spark进行参数传递,并结合甘特图和状态图来展示数据处理流程。 ## ODPS Spark参数传递 在ODPS上运行Sp
原创 2024-07-30 07:50:08
189阅读
# Spark程序开发入门 Apache Spark是一个强大的大数据处理框架,它支持快速、灵活的数据分析。无论是批处理还是流处理,Spark都能提供高效的解决方案。本文将介绍Spark程序的基本开发步骤,并通过示例代码帮助您更好地理解其工作流程。 ## 1. Spark架构概述 Spark的核心组件包括: - **Spark Core**: 提供了内存计算,允许快速处理大规模数据集。 -
原创 7月前
96阅读
首先我们要创建SparkSession val spark = SparkSession.builder() .appName("test") .master("local") .getOrCreate() import spark.implicits._ //将RDD转化成为DataFrame并支持SQL操作 然后我们通过SparkSession来创建DataFrame 1.使用toDF函数创建
转载 2023-08-28 20:00:59
250阅读
数据开发流程 通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。 说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。 参考资料:1.MaxCompute studio FAQ
转载 2020-01-10 14:36:00
221阅读
2评论
    DataX 是一款支持任意异构数据系统离线数据交换的工具、框架、平台,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。目前DataX支持数十种各类数据存储、计算系统,每天为阿里集团传输数据高达数十T。DataX服务的客户不仅仅局限于三淘、支付宝、阿里巴巴B2B,阿里集团外部客户有大众点评、蘑菇街等也在采用Da
1 数据集成概念    数据集成,从字表意思理解,数据的集中,也就是说将源数据从各个数据系统集成到dataworks中,或者从dataworks推送到各个目标系统中,以下将会介绍具体的数据集成的规范。1.1 数据集成开发 1.1.1、位置    1.1.2、操作 a、在新建选项卡页面,输入你的数据集成的名字,点击提交b、点击提交后页面如下所示,可以看到主要分为四部分功能区,下面
原创 2023-02-10 22:21:40
314阅读
1 数据集成概念   数据集成,从字表意思理解,数据的集中,也就是说将源数据从各个数据系统集成到dataworks中,或者从dataworks推送到各个目标系统中,以下将会介绍具体的数据集成的规范。1.1 数据集成开发1.1.1、位置    数据开发 -> 点击业务流程 -> 点击新建 -> 选择“离线同步”,如下图: 1.1.2、操作a、在新建选项卡页面,
原创 精选 2023-02-10 00:12:06
1161阅读
4点赞
     用java写的一个简单的spark程序,通过本地运行和集群运行例子。    1    在eclipse下建一个maven工程    配置pom.xml配置文件参考下面:<project xmlns="http://
转载 2023-12-25 11:23:47
151阅读
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太
转载 2022-12-27 21:52:15
208阅读
spark和scala版本运行spark-shellWelcome to____ __/ __/__ ___ _____/ /___\ \/ _ \/ _ `/ __/ '_//___/ .__/\_,_/_/ /_/\_\ version 1
原创 2023-05-17 11:50:46
228阅读
1、java版本(spark-2.1.0)package chavin.king;import org.apache.spark.api.java.JavaSparkContext;import
原创 2021-08-07 10:25:12
383阅读
# Spark Java开发程序 ## 简介 Spark Java是一个轻量级的Web框架,可以帮助开发者快速构建基于Java的Web应用程序。它提供了简洁的API和灵活的扩展性,使得开发过程更加高效和简单。 在本文中,我们将介绍如何使用Spark Java开发程序,并给出一些示例代码来帮助读者更好地理解这个框架的使用方法。 ## 安装Spark Java 首先,我们需要在项目中引入Spar
原创 2024-07-03 03:33:03
84阅读
阿里云有很多成熟的云产品(萌新认知),我自己只用过腾讯云的对象存储,对这类云产品不是特别了解。有幸参与到大数据相关的项目,跟着学了点工具的使用方法,非常简单,也了解了一些使用大数据分析问题的流程。参考资料  官方文档->点击跳转  在使用之前肯定需要有账号巴拉巴拉什么的,根据官方文档来就好了。临时查询  临时查询可以写点类似sql的语句查查东西,建建表啥的。  使用过程:临时查询->右
转载 2023-12-19 19:26:20
126阅读
一、开通Dataworks(1)百度搜Dataworks,进入如下页面,点击立即开通 (2) 这里要选好自己想要的配置,这里展示我之前的配置解决方案:选DataWorks+MaxCompute组合产品 DataWorks:标准版 购买时长:1年 MaxCompute:按量付费(3)开通好之后,进入Dataworks的控制台,点击dataworks首页二、进入dataworks首页三、数据开发(1)
首先,谈一下建立scala工程的问题,有两种方法file–new project–maven-a
原创 2022-06-17 09:14:03
73阅读
  • 1
  • 2
  • 3
  • 4
  • 5