在公司做大数据开发已经四五年了,因此也积累了一些心得体会,便趁着这次机会大体描述下。 首先:数据开发的前提肯定是需要数据的,而数据从哪里来,大部分的数据都存储在Oracle中,而spark的计算 数据来源基本上都是hdfs。虽然oracle也可以与spark进行直接交互,但是如果oracle的表的数据量高达千万、亿 级别,每次的spark的查询都会对oracle数据库产生极大的影响,因
转载
2023-11-24 13:35:20
59阅读
一、kafka 模拟数据:【1】模拟数据实体类:public class CarDataTest {
private String lat;
private String lon;
private String location;
private String status;
private String terminaltype;
-------
转载
2024-08-13 10:31:54
208阅读
iamlaosong文将CSV文件导入到ORACLE的方法网上很多,比较常见的方法是用PL/SQL Developer的Text Importer和SQLLOADER,考虑到数据量大,觉得还是将文件FTP到服务器,再用SQLLOADER速度会比较快。Oracle 的SQLLOADER可以将外部数据加载到数据库表中。下面是SQLLOADER的基本特点: 1)能装入不同数据类型文件及多个数据文件的数据
转载
2023-09-06 12:18:19
100阅读
当用Spark的DataFrame往HDFS里面写入csv的时候,会指定分隔符等等。由于写入的是csv,因此用sqoop导到其它数据库的时候就会默认全部按照字符串来处理。因此字符串的格式一定要符合导出数据库所要求的格式。之前曾尝试用DataFrame导出Parquet文件,并用sqoop命令来导出到oracle数据库,无奈总是报错parquet文件夹下缺乏.metadata文件,百度谷歌必应了半天
转载
2023-10-01 11:38:19
102阅读
Spark作为一个分布式计算框架,可以很好的适用于Hadoop。那么Spark是否可以与关系型数据库较好的进行兼容呢?以Spark作为计算,以关系型数据库(例如Oracle)作为存储? 答案当然是可以,笔者经过不断地测试和优化,终于将Spark与Oracle进行了兼容匹配与读写优化。1、环境准备 在本次测试环境中,用6台机器搭建了CDH的Hadoop平台,Spark2.2版本搭配Yarn
转载
2023-09-29 21:10:52
233阅读
刚开始使用spark-sql,首先看了一部分的源码。然后开始着手程序的编写。 在spark中使用jdbc: 在 Spark-env.sh 文件中加入: export SPARK_CLASSPATH= 任务提交时加入: spark-submit –master spark://master:7077 –jars ojdbc16.jar一、 val rdd = sqlContext.rea
转载
2023-10-26 08:00:56
126阅读
Spark SQL读取Oracle的number类型的数据时精度丢失问题在程序开发中,使用到了sparkSQL读取Oracle数据库,发现当sparkSQL读取Oracle的number类型字段时,数据的小数经度会出现了丢失的情况。 更为奇怪的是,现有三张Oracle表的字段类型都为number类型,第二种表的数据小数部分出现了丢失,另外两张表则没有问题。三张表的只是在小数位数上存在区别:第一张表
转载
2023-10-27 19:11:26
53阅读
刚开始使用spark-sql,首先看了一部分的源码。然后开始着手程序的编写。在spark中使用jdbc:在 Spark-env.sh 文件中加入:export SPARK_CLASSPATH=任务提交时加入:spark-submit –master spark://master:7077 –jars ojdbc16.jar
一、
val rdd = sqlContext.read.format(“
转载
2023-10-06 16:40:06
429阅读
文章目录一、SparkSQL连接Hudi1.1 Hive配置1.2 SparkSQL连接Hudi二、创建表2.1 常规的建表2.2 CTAS三、插入数据四、查询数据五、更新数据5.1 普通5.2 MergeInto六、删除数据七、Insert Overwrite一、SparkSQL连接Hudi1.1 Hive配置我们需要将Hive 的 metastore服务独立出来-- 目前只指定一个节点,也可以
转载
2023-07-17 22:44:01
238阅读
Spark对很多种文件格式的读取和保存方式都很简单。Spark会根据文件扩展名选择对应的处理方式。Spark支持的一些常见文件格式如下:文本文件 使用文件路径作为参数调用SparkContext中的textFile()函数,就可以读取一个文本文件。也可以指定minPartitions控制分区数。传递目录作为参数,会把目录中的各部分都读取到RDD中。例如:val input = sc.textF
转载
2023-07-03 17:01:45
140阅读
我有一个例子,我使用PySpark(或者Spark,如果我不能使用Python,则需要使用Scala或Java)从几百个缺少主键的数据库表中提取数据。(为什么甲骨文会创建一个包含主键表的ERP产品是另一个主题。。。但是无论如何,我们需要能够提取数据并将每个数据库表中的数据保存到Parquet文件中。)我最初尝试使用Sqoop而不是PySpark,但是由于我们遇到了许多问题,尝试使用PySpark/
转载
2024-01-05 11:30:43
54阅读
一、搭建执行hudi的平台1.1、整体软件架构1.2、安装Hadoop(当前环境是hadoop2.7)............1.3、安装 Spark(当前环境是3.x) 第一步、安装Scala-2.12.10##解压scala
tar -zxvf scala-2.12.10.tgz -C /opt/mo
转载
2023-07-15 09:13:20
165阅读
Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql,然后再对查询到的数据进行处理也能得到预期的结果,但是Mysql往往还有其他业务也在使用,这些业务往往比较重要,通过JDBC方式频繁查询会对Mysql造成
转载
2023-12-21 21:49:56
122阅读
sparkSession 读取 csv1. 利用 sparkSession 作为 spark 切入点2. 读取 单个 csv 和 多个 csvfrom pyspark.sql importSparkSessionfrom pyspark.sql importSQLContextif __name__ == '__main__':
scSpark=SparkSession \
.builder \
转载
2023-07-07 17:38:41
105阅读
Spark的数据读取即数据保存可以从两个维度来做区分:文件格式以及文件系统。文件格式分为:Text文件,Json文件,Csv文件,Sequence文件以及Object文件;文件系统分为:本地文件系统,HDFS,HBase以及数据库。1. 文件类数据读取与保存1.1 Text文件数据读取:textFile(String)var hdfsFile = sc.textFile("hdfs://hadoo
转载
2024-02-28 14:58:03
72阅读
计划写一个新系列,分别使用Excel、Python、Hive、SparkSQL四种方式来实现简单的数据分析功能,例如GroupBy、透视表等功能。俗话说的好,工欲善其事,必先利其器,所以咱们先介绍一下环境的搭建!虽说Hive和Spark都是分布式的宠儿,但是咱们仅仅实现单机版!所有需要安装的工具列表如下:1、Excel2、Python3、JDK4、IDEA5、Mysql6、Scala7、Spark
转载
2024-05-31 07:51:37
552阅读
# 使用 Java Spark 读取 Hive 数据
在大数据领域,Apache Spark 与 Apache Hive 是常用的技术栈。Spark 提供了高效的分布式计算能力,而 Hive 则用于数据仓库。本文将指导你使用 Java Spark 来读取 Hive 数据,以下是整个流程。
## 流程概述
| 步骤 | 描述
# Java Spark 文件读取实现指南
## 引言
在 Java 开发中,Spark 是一个非常强大的大数据处理框架。它提供了丰富的功能和灵活的 API,可以用于处理各种类型的数据。其中,文件读取是 Spark 中常见的操作之一。本文将向刚入行的小白介绍如何使用 Java Spark 实现文件读取的过程。
## 整体流程
下面是一个简单的表格,展示了实现 Java Spark 文件读取的整
原创
2024-01-19 07:02:44
147阅读
## 实现Spark Java读取HDFS的流程
### 关系图
```mermaid
erDiagram
读取HDFS --> 使用Spark API
```
### 任务流程步骤
| 步骤 | 描述 |
| --- | --- |
| 1 | 创建一个SparkSession对象 |
| 2 | 使用SparkSession对象创建一个DataFrame |
| 3 | 从HDF
原创
2024-06-21 03:36:06
65阅读
# 使用 Java Spark 读取 ONNX 模型的指南
## 整体流程概述
在使用 Java Spark 读取 ONNX 模型之前,需要了解整个流程。以下是主要的步骤:
| 步骤 | 描述 |
|-----------|-----------------------------------------
原创
2024-10-26 05:12:43
26阅读