Spark博客_原创博文第3页

最佳实践：基于Apache SeaTunnel从MySQL同步到PostgreSQL

今天和大家分享一个简单但常见的 MySQL 到 MySQL 数据同步与合并场景案例，这个案例也是我在实际工作中遇到的问题，希望能抛砖引玉，欢迎有更丰富经验的大佬一起分享交流。

MySQL

SeaTunnel

大数据

postgresql

开源

原创

ApacheSeaTunnel

18天前

67阅读

最佳实践：基于Apache SeaTunnel从MySQL同步到PostgreSQL

Java 大视界 -- Java 大数据在智能家居设备联动与场景自动化中的应用

Java大数据在智能家居中的应用摘要：随着智能家居市场快速增长，预计2026年设备出货量将达20亿台，Java大数据技术正成为解决设备联动和场景自动化问题的关键。本文探讨了智能家居与大数据的融合趋势，详细介绍了Java在智能家居中的两大核心应用：设备数据采集与传输（通过HTTP协议实现传感器数据云端上传），以及设备联动逻辑实现（如入侵检测触发安防联动）。通过Java强大的网络编程能力与大数据分析技术，智能家居系统能够实现个性化、精准化的自动控制，如根据用户睡眠习惯自动调节环境参数，显著提升家居生活的便捷性

智能家居

数据

设备联动

场景自动化

大数据

原创

青云交技术圈

19天前

39阅读

1点赞

yyds干货盘点

百度APP日志处理框架升级之路

面对BDAPP日均数千亿PV、超百PB数据规模带来的资源压力、处理延迟和架构瓶颈，我们通过“两步走”策略完成了数据仓库的系统性升级

数据

链路

百度

数仓重构

数据治理

原创

百度Geek说

19天前

61阅读

单片机使用同一硬件定时器实现多周期定时功能

一个复杂的单片机程序可能需要很多种周期不同的定时器，用于执行不同的任务，如传感器数据采集、显示设备刷新或者执行设备的驱动等。如果每种周期使用一个单片机的硬件定时器将很难实现全部的功能需求，本文记录一种简单的使用一个硬件定时器实现不同周期定时功能的方法。各周期定时回调函数根据需求设计各不同周期定时 ...

添加用户

回调函数

单片机

bugouhen

19天前

346阅读

Java 大视界 -- Java 大数据机器学习模型的对抗攻击与防御技术研究

文章摘要本文探讨了Java大数据环境下机器学习模型的对抗**与防御技术。首先概述了机器学习模型在医疗、商业和能源等领域的重要应用价值，以及对抗**对模型安全性的威胁。随后重点分析了两种典型对抗**方法：快速梯度符号法(FGSM)和迭代快速梯度符号法(I-FGSM)，通过数学公式阐明原理，并提供了完整的Java实现代码示例（使用Deeplearning4j框架）。文章强调随着机器学习应用普及，模型安全性问题日益突出，研究对抗**与防御技术对保障系统安全运行具有重要意义。全文采用专业的技术视角，通过代码实例和

数据

机器学习

Java

防御技术

对抗

原创

青云交技术圈

20天前

34阅读

yyds干货盘点

海豚配置Spark集群

hytest 框架声明hytest 自动化软件测试框架永久开源免费，请大家放心使用。hytest 简介hytest （黑羽test）是白月黑羽自己研发的自动化测试框架，它非常适合做系统测试自动化，而相比之下，pytest、unittest 更适合白盒的单元测试、集成测试。它有如下优点：上手非常简单hytest 让大家直接用 Python 来写测试用例。如果你有 Python编

海豚配置Spark集群

python

用例

初始化

测试用例

技术博主

20天前

404阅读

sparkler 过滤器

过滤器Filter主要的应用场景有：自动登录统一设置编码格式访问权限控制敏感字符过滤等过滤器的概念：过滤器位于客户端和web应用程序之间，用于检查修改两这之间流过的请求和响应在请求到达Servlet/Jsp之前，过滤器接货请求在响应送给客户端之前，过滤器截获响应多个过滤器形成一个过滤器链，过滤器链中不同过滤器的先后顺序由部署文件web.xml中过滤器映射<filter-mappi

sparkler 过滤器

客户端

服务器

xml

IT智行领袖

21天前

425阅读

streampark开发spark

本期内容：1. Spark Streaming架构　　2. Spark Streaming运行机制　　Spark大数据分析框架的核心部件： spark Core、spark Streaming流计算、GraphX图计算、MLlib机器学习、Spark SQL、Tachyon文件系统、SparkR计算引擎等主要部件.　　Spark&n

streampark开发spark

Streaming

spark

时间间隔

数据小香

22天前

367阅读

大数据领域数据仓库的模型设计原则

多源数据集成：如何整合结构化（SQL数据库）、半结构化（JSON/XML）、非结构化（文本/图像）数据？高效查询：如何在PB级数据中实现亚秒级查询？实时性：如何支持流式数据的实时加载与分析？** scalability**：如何应对数据量的线性增长（如每天新增10TB数据）？数据质量：如何处理脏数据（重复、缺失、不一致）？大数据时代，数据仓库的模型设计不再是传统维度建模的简单延伸，而是需要结合大数据特性（多源、海量、实时）、Lakehouse架构（灵活存储+高效计算）与AI驱动的优化。

大数据

数据仓库

spark

ai

数据

mob64ca13f9a97c

22天前

393阅读

Java 大视界 -- Java 大数据在智慧交通自动驾驶仿真与测试数据处理中的应用

本文探讨了Java大数据技术在智慧交通自动驾驶领域的应用。智慧交通通过信息技术优化交通管理，而自动驾驶作为其核心，依赖传感器与算法实现安全高效行驶。Java大数据在自动驾驶仿真中发挥关键作用：1) 仿真场景构建：利用Java面向对象特性生成多样化交通场景数据；2) 算法验证：通过模拟传感器数据（如OpenCV处理图像）测试自动驾驶算法性能。此外，Java还支持海量测试数据的高效存储与管理，为自动驾驶系统研发提供数据支撑。文章通过代码示例（如行人轨迹模拟、车辆检测）展示了Java技术在该领域的实践

数据

Java

自动驾驶

智慧交通

算法优化

原创

青云交技术圈

23天前

109阅读

yyds干货盘点

Java 大视界 -- Java 大数据在智慧交通自动驾驶仿真与测试数据处理中的应用

keepalived安装配置详解

Keepalived、LVS、Nginx 三者结合可构建 “高可用 + 高性能 + 灵活七层处理” 的负载均衡架构，广泛用于高并发业务场景（如电商、支付系统）。三者分工明确： LVS：作为四层（TCP/UDP）负载均衡器，负责高性能流量分发（基于内核态，支持百万级并发）； Nginx：作为七层（HT ...

Nginx

nginx

bash

架构领航博主

23天前

415阅读

Java 大视界 -- 基于 Java 的大数据可视化在企业供应链风险管理与应急响应中的应用（412）

基于 32 家企业 2024 年实战案例，详解 Java 大数据可视化 + AIGC 在供应链风险管理的落地路径，涵盖供应商风险评级、物流轨迹监控、库存智能调拨 3 大核心场景，附生产级代码、踩坑记录和 AIGC 融合方案。华东 / 华南 / 东北企业实测：风险识别周期 7 天→10 分钟，异常响应 3 小时→25 分钟，库存周转天数降 22%，决策效率提升 80%。数据源自 Gartner 2024 报告、企业复盘数据、官方技术白皮书，实战性与专业性兼具。

数据

Java

flink

大数据可视化

供应链风险管理

原创

青云交技术圈

23天前

61阅读

yyds干货盘点

Java 大视界 -- 基于 Java 的大数据可视化在企业供应链风险管理与应急响应中的应用（412）

从小时级到分钟级：多点DMALL如何用Apache SeaTunnel把数据集成成本砍到1/3？

过去我们依赖 Spark 自研同步工具，虽然稳定，却面临“启动慢、资源重、扩展难”的痛点。

多点

大数据

Apache SeaTunnel

开源

数据集成

原创

ApacheSeaTunnel

23天前

53阅读

3.1.8<3.2.0<3.3.1，Apache DolphinScheduler集群升级避坑指南

3.3.1版本机器启动方式变得更复杂了，但是集群功能变得更好用了，资源利用率提高了。

apache

java

DolphinScheduler

开源

大数据

原创

海豚调度平台

24天前

48阅读

桃子实践spark网站

0x00 废话一堆虽说要尊重开发者，但是这个东西，流氓软件。练手用P.S. 我不是死宅 0x01 桃‘’色兑换码看到这个，我还以为里面有什么儿童不宜的东西，兴奋了……APKIDE搜索没有相关“桃色”无果，转unicode \u6843\u8272 。就是这里\u5151\u6362\u621

桃子实践spark网站

java

搜索

f5

烟雨江南的秋

24天前

367阅读

tez spark区别

Apex TriggersApex 触发器（Apex Triggers）是一种特殊的 Apex 类。它的主要作用是在一条记录被插入、修改、删除之前或之后自动执行一系列的操作。每一个 Trigger 类必须对应一种对象。Trigger 的语法和普通的 Apex 类一样。Salesforce 建议开发者在创建 Trigger 之前，考虑一下相同的操作可否通过 Salesforce 的设置界面中的功能完

tez spark区别

数据

Apex

插入数据

AI领域布道师

24天前

423阅读

Apache Iceberg Spark Streaming写入：Exactly-Once语义保障

在实时数据处理场景中，如何确保数据写入的准确性和一致性是工程师面临的核心挑战。想象这样一个场景：你的电商平台需要实时处理用户行为数据，一旦出现数据重复或丢失，可能导致推荐算法失效、库存统计错误，甚至影响交易决策。Apache Spark Structured Streaming作为主流流处理框架，虽然提供了Exactly-Once语义保证，但与数据湖集成时往往面临诸多陷阱——分布式提交冲突、元数据...

spark

元数据

数据

mob64ca140bbb8b

24天前

374阅读

Apache Iceberg Spark Streaming写入：Exactly-Once语义保障

spark_df

Spark 2.x管理与开发-Spark的算子（三）Action*动作含义reduce(func)：聚合通过func函数聚集RDD中的所有元素，这个功能必须是课交换且可并联的collect()在驱动程序中，以数组的形式返回数据集的所有元素count()返回RDD的元素个数first()返回RDD的第一个元素（类似于take(1)）take(n)返回一个由数据集的前n个元素组成的数组takeSamp

spark_df

数据集

数组

文件系统

数据大侠客

24天前

402阅读

Spark专题-第三部分：性能监控与实战优化（1）-认识spark ui - 指南

Spark专题-第三部分：性能监控与实战优化（1）-spark uiSpark UI 概述Spark UI 是 Spark 提供的 Web 监控界面，用于实时查看应用程序的执行状态、性能指标和资源配置。各模块详细解析1. Jobs 页面核心信息区域 **User:** inno # 提交作业的用户 ...

spark

SQL

UI

mob64ca14106f2f

24天前

406阅读

Spark专题-第三部分：性能监控与实战优化（1）-认识spark ui - 指南

内存对账 spark

首先，什么是内存对齐？如果你不了解内存对齐，你应该会认为数据在内存上是一个接一个连续存储的，然而实际情况并非如此，数据是按照一定的规则在内存中摆放的，这个规则就是内存对齐的规则。为什么要内存对齐呢，这是因为各个硬件平台对存储空间的处理上有很大不同，一些平台对某些特定类型的数据只能从某些特定地址开始存取，这通常是因为要考虑存取数据的效率才如此设计的。比如有些平台每次读取都是从偶地址开始，如果一个in

内存对账 spark

成员变量

内存对齐

Test

laokugonggao

24天前

363阅读

写出使用Spark RDD实现Word Count的代码

RDD创建：从从文件系统中加载数据创建RDD：　　1.Spark采用textFile（）从文件系统中加载数据创建RDD 可以使本地，分布式系统等　　2.把文件的url作为参数可以是本地文件系统的地址，分布式文件系统HDFS的地址等等从本地文件中加载数据：sc为系统自动创建的sparkcontext，不用我们创建从文件word.txt中加载数据生成RDD从分布式文件系统HDFS加载数据：与上面同理

数据集

加载数据

HDFS

laojean

25天前

433阅读

xmpp spark

1.XMPPFramework框架分为两个部分：（1）XMPP Core（实现了XMPP规范<RFC 3920>）（2）XMPP Extensions（rester，XEP，utiliites）2.XMPP Core XMPP核心文件包含在XMPP框架的Core文件夹下，包括下面一些文件： XMPPStream：该类是整个框架的核心类，它是你将交互的主要类，并且它是所有的扩展和自定

xmpp spark

服务器

客户端

应用程序

数据侠客行

25天前

367阅读

上手 cpp-httplib：轻量级 C++ HTTP 库的安装与实战指南

cpp-httplib是一个轻量级的C++ HTTP库，具有单头文件、零依赖、跨平台等优势，适合快速开发小型Web服务和API调用。它支持同步/异步操作、HTTP/1.1特性及HTTPS，API设计直观易用。安装只需克隆GitHub仓库并引用头文件即可。核心功能围绕Request、Response、Server和Client四个类展开，支持路由注册和请求处理。文中通过一个返回"Hello World"的HTTP服务器示例，展示了如何编译运行代码，并提供了跨平台编译、端口占用等注意事项。该

c++

http

开发语言

服务器

HTTP

mob64ca1402d47a

28天前

456阅读

Python Alembic介绍（数据库迁移工具，专为配合SQLAlchemy（ORM库）设计，用于管理数据库模式的变更）upgrade升级数据库、downgrade回滚数据库、env.py

生产部署。

数据库

python

SQL

版本控制

技术博主

1月前

413阅读

Python处理超大型EXCEL文件（66万行×17列）笔记（上）

摘要：本文将介绍Pandas库和openpyxl库中三个excel读入函数及其使用方法。

#python

#excel

#笔记

#pycharm

python

mob64ca13feda16

1月前

387阅读

spark 序列化 heap outofmemory spark排序原理

1、RDD原理RDD读入外部数据源进行创建RDD经过一系列的转换（Transformation）操作，每一次都会产生不同的RDD，供给下一个转换操作使用最后一个RDD经过“动作”操作进行转换，并输出到外部数据源这一系列处理称为一个Lineage（血缘关系），即DAG拓扑排序的结果优点：惰性调用、管道化、避免同步等待、不需要保存中间结果、每次操作变得简单RDD特点：1）高效容错性：血缘关系、重新计算

spark

数据

List

mob6454cc73e9a6

1月前

352阅读

两项世界第一！阿里云EMR登顶全球数据仓库性能及性价比排行榜

阿里云EMR在全球数据仓库性能及性价比排行榜中斩获两项全球冠军！

阿里云

数据仓库

EMR

Spark

StarRocks

原创

阿里云大数据AI技术

1月前

158阅读

spark如何将带有map的row类型rdd转换为dataframe java

2.1 编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这

scala

shell

数据结构与算法

spark

apache

mob64ca14122c74

1月前

352阅读

pyspark 线程数是有cores 数限制

　　使用 JAVA 进行多道编程时，除了通过 wait/notify 对线程进行阻塞/唤醒外，我们还可以使用 LockSupport 工具类来阻塞和唤醒线程。　　比如：Thread threadTest = new Thread( () -> { System.out.println("thread star

System

系统调用

死锁

feiry

1月前

346阅读