Spark博客_原创博文第14页

spark中为什么会产生很多小文件 spark为什么用scala

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集

spark中为什么会产生很多小文件

scala

java

shell

Scala

技术领航员

3月前

22阅读

spark 用户 spark用户项目

本项目主要讲解了一套应用于互联网电商企业中，使用Java、Spark等技术开发的大数据统计分析平台，对电商网站的各种用户行为（访问行为、页面跳转行为、购物行为、广告点击行为等）进行复杂的分析。用统计分析出来的数据，辅助公司中的PM（产品经理）、数据分析师以及管理人员分析现有产品的情况，并根据用户行为分析结果持续改进产品的设计，以及调整公司的战略和业务。最终达到用大数据技术来

spark 用户

大数据

java

scala

数据倾斜

网络安全战士

3月前

354阅读

Java 大视界 -- Java 大数据在智能安防周界防范系统中的智能感知与自适应防御（333）

本文基于 12 个国家级安防项目，详解 Java 大数据在周界防范中的应用。通过多源数据融合、实时异常检测、自适应防御策略，实现误报率 7%、漏报率 2%，响应时间 90 秒，提供可复用的 Java 代码与实战方案。

Java

生产环境

大数据

智能安防

周界防范

原创

青云交技术圈

3月前

101阅读

yyds干货盘点

Java 大视界 -- Java 大数据在智能安防周界防范系统中的智能感知与自适应防御（333）

spark支持百万级数据吗 spark支持哪些编程语言

知名编程语言 Ada 与 SPARK 所属公司 AdaCore 发布了一则关于 NVIDIA 的案例，案例显示：NVIDIA 的产品运行着许多经过正式验证的 SPARK 代码，NVIDIA 安全团队正尝试使用 SPARK 语言取代 C 语言，来实现一些对安全较为敏感的应用程序或组件。SPARK 是一种编程语言和一组验证工具，旨在满足高保证软件开发的需求。SPARK 基于 Ada 语言，

spark支持百万级数据吗

spark

大数据

分布式

SPARK

数据小香

3月前

366阅读

sparkvue 正弦拟合

一、实验目的掌握最小二乘法求解（无惩罚项的损失函数）掌握加惩罚项（2范数）的损失函数优化掌握梯度下降法、共轭梯度法理解过拟合、克服过拟合的方法(如加惩罚项、增加样本)二、实验要求及环境实验要求：生成数据，加入噪声；用高阶多项式函数拟合曲线；用解析解求解两种loss的最优解（无正则项和有正则项）优化方法求解最优解（梯度下降，共轭梯度）；用你得到的实验数据，解释过拟合。用不同数据量，不同超参数，不同

sparkvue 正弦拟合

损失函数

过拟合

数据

footballboy

3月前

398阅读

mvn 使用spark ml

　　Maven是近年来最流行的项目构建与管理工具。不仅简化了我们开发过程中对jar包依赖的导入，还对项目的清理、初始化、编译、测试、打包、集成测试、验证、部署和站点生成等所有构建过程进行了抽象和统一，方便了我们对项目的管理。maven依赖是我们最为熟知的特性，单个项目的依赖管理并不难，但是要管理几个甚至几十个模块时，那这个依赖有应该怎么管理呢？一：maven的常用命令　　mvn validate：

mvn 使用spark ml

maven

jar包

jar

温柔一刀

3月前

390阅读

pyspark onehotencoder

image CDA数据分析师出品相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已，接下来我们围绕四个方法来帮助大家加快一下Python的计算时间，减少大家在算法上的等待时间。今天给大家讲述最后一方面的内容，关于Dask的方法运用。1.简介随着对机器学习算法并行化的需求不断增加，由于数据大小甚至模型大小呈指数级增长，如

并行化

数据集

调度程序

imking

3月前

393阅读

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的跨语言信息检索与知识融合（331）

本文结合字节跳动、百度翻译等 8 个真实企业案例，深入解析 Java 大数据与机器学习在跨语言信息检索和知识融合中的实践应用。通过多语言数据处理、模型优化及知识图谱构建等技术，实现检索准确率从 45% 提升至 91%，知识融合效率提高 4 倍，提供可直接复用的代码与工程化方案。

Java

跨语言信息检索

知识融合

大数据

自然语言

原创

青云交技术圈

3月前

212阅读

yyds干货盘点

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的跨语言信息检索与知识融合（331）

Java 大视界 -- Java 大数据在智能交通共享单车智能调度与停放管理中的应用（329）

本文结合 15 个城市实战案例，详解 Java 在共享单车实时数据采集、智能调度、精准停放中的技术应用，提供可直接部署的代码方案，展示 Java 系统如何将高峰供需匹配时间缩至 5 分钟，违规率降至 6%-9%，为城市交通效率提升提供技术范本。

数据

Java

智能交通

共享单车调度

大数据

原创

青云交技术圈

3月前

122阅读

yyds干货盘点

Java 大视界 -- Java 大数据在智能交通共享单车智能调度与停放管理中的应用（329）

数据湖与数据仓库：架构设计与实践

在数据驱动的时代，企业面临的首要问题不是缺乏数据，而是如何有效管理和利用海量数据。数据湖和数据仓库作为两种主流的数据管理架构，常常被拿来比较。但实际上，它们并非对立关系，而是各有侧重的互补方案。本文将从架构设计、核心差异和实战案例三个方面，解析这两种架构的适用场景，帮助读者在实际项目中做出合理选择。一、核心概念与架构设计1. 数据仓库（Data Warehouse）数据仓库是为数据分析和决策支持设

数据

数据仓库

结构化

原创

瑞雪小雪

3月前

184阅读

Java 大视界 -- Java 大数据机器学习模型在金融市场高频交易策略优化与风险控制中的应用（327）

本文结合文艺复兴、摩根大通等 15 个实战案例，解析 Java 在高频交易中的技术应用，涵盖边缘 - 中心数据处理、强化学习策略、硬件感知风控，提供经 SEC 备案的实盘代码与数据，助力策略优化与风险控制。

Java

Java 高频交易

机器学习

大数据

风险控制

原创

青云交技术圈

3月前

146阅读

Java 大视界 -- Java 大数据机器学习模型在金融市场高频交易策略优化与风险控制中的应用（327）

Java 大视界 -- Java 大数据在智能教育学习社群知识共享与协同学习促进中的应用（326）

本文结合清华大学 “学堂在线”、重点中学等案例，深度解析 Java 大数据在智能教育社群中的应用，涵盖多源教育数据采集（符合 GB/T 36344）、学科知识图谱构建、学习目标驱动推荐、协同学习工具开发，提供可复用的 Java 代码与教育效果评估模型，助力知识共享与协同学习效率提升。

Java

智能教育

学习社群

知识共享

大数据

原创

青云交技术圈

3月前

148阅读

1点赞

yyds干货盘点

Java 大视界 -- Java 大数据在智能教育学习社群知识共享与协同学习促进中的应用（326）

spark统计springcloud全链路追踪

1.Ribbon负载均衡原理默认负载轮训算法: rest接口第几次请求数 % 服务器集群总数量 = 实际调用服务器位置下标List<Servicelnstance> instances = discoveryClient.getInstances("CLOUD-PAYMENT-SERVICE");list.get(index)获取下标index，决定被访问的机器。实例：eu

微服务

List

数位

云端行者

3月前

435阅读

用spark做一个流数据处理框架

第1章 SparkStreaming概述 1.1 Spark Streaming是什么用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方

用spark做一个流数据处理框架

spark

数据

apache

数据探索者11

3月前

390阅读

spark容错机制实现方式

1、Storm 消息容错机制（掌握）对于每个Spout Tuple保存一个ack-val的校验值，它的初始值为0，然后每发射一个tuple或者ack一个tuple，tuple的id都要跟这个校验值异或一下，并且把得到的值更新为ack-val的新值。 <ROOTID,ACKVALUE>1.1、总体介绍在storm中，可靠的信息处理机制是从spout开始的。一个提供了可靠的处理机

spark容错机制实现方式

storm容错机制和通信机制

数据

业务逻辑

数据结构

技术博主

3月前

413阅读

spark3 行转列

文章目录五-中, Spark 算子吐血总结5.1.4.3 RDD 转换算子(Transformation)1. Value类型1.1 `map`1.2 `mapPartitions`1.3 `mapPartitionsWithIndex`1.4 `flatMap`1.5 `glom`1.6 `groupBy`1.7 `filter`1.8 `sample`1.9 `distinct`1.10 `c

spark3 行转列

数据

List

spark

coolfengsy

3月前

376阅读

spark 电池针脚

20针：14针和10针：下面为J-Link接口定义：仿真器端口连接目标板备注1. VCCMCU电源VCCVCC2. VCCMCU电源VCCVCC3. TRSTTRSTTest ReSeT/ pin4. GNDGND或悬空 5. TDITDITest Data In pin6. GNDGND或悬空 7. TMS, SWIOTMS, SWIOJTAG:Test Mode State

spark 电池针脚

Test

引脚

Data

mob64ca13fbd761

3月前

383阅读

Java 大视界 -- Java 大数据在智能安防视频监控系统中的目标轨迹预测与防范策略制定（325）

本文结合杭州亚运会、广州白云机场等国家级项目，深入解析 Java 大数据在智能安防中的应用，涵盖 GB/T 28181 合规视频接入、LSTM 轨迹预测、三级防范策略，提供符合安防行业标准的可运行代码与实测数据。

Java

数据

大数据

智能安防

视频监控

原创

青云交技术圈

3月前

202阅读

yyds干货盘点

Java 大视界 -- Java 大数据在智能安防视频监控系统中的目标轨迹预测与防范策略制定（325）

spark提交yarn任务时设置内存 spark提交任务到yarn

因为spark文档中只介绍了两种用脚本提交到yarn的例子，并没有介绍如何通过程序提交yarn，但是我们的需求需要这样。网上很难找到例子，经过几天摸索，终于用程序提交到yarn成功，下面总结一下。先介绍官网提交的例子，我用的是spark 0.9.0 hadoop2.2.0一.使用脚本提交ip和主机名配置到spark所在主机的/etc/hosts里面）。 2.然后需要把hadoop目录et

spark提交yarn任务时设置内存

spark

hadoop

SPARK

mob64ca13feda16

3月前

420阅读

spark 官方文档 spark中文手册

问题导读1.spark-submit各个参数的含义是什么？ 2.集群启动都包含哪些脚本？ 3.如何实现连接一个应用程序到集群中？ Spark中文手册-编程指南 Spark之一个快速的例子 Spark之基本概念 Spark之基本概念 Spark之基本概念（2） Spark之基本概念（3） Spark-sql由入门到精通 Spark-sql由入门到精通续 spa

spark 官方文档

spark

应用程序

SPARK

技术领航博主

3月前

418阅读

spark批量插入条数设置

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。首先，Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实

spark批量插入条数设置

数据

Hadoop

API

mob64ca1401b651

3月前

381阅读

Spark大数据处理：RDD与DataFrame性能对比

在Apache Spark的生态系统中，RDD（弹性分布式数据集）和DataFrame是两种核心的数据抽象，支撑着海量数据的处理与分析。自2014年Spark 1.3版本引入DataFrame以来，这两种数据结构就并存于Spark的API中，各自在不同场景中发挥着重要作用。本文将从底层原理、性能表现和适用场景三个维度，通过实战案例对比RDD与DataFrame的核心差异，帮助开发者在实际项目中做出

ci

spark

数据

原创

瑞雪小雪

3月前

177阅读

spark原理电子书

什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。首先，Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和

spark原理电子书

数据

Hadoop

API

mob64ca13fb6939

3月前

345阅读

doris使用spark doris spark

6月29日，Doris有幸得到中国信通院云大所、大数据技术标准推进委员会的支持，在中国信通院举行了0.11.0新版本预览线下沙龙。各位嘉宾都带来了干货满满的分享。关注Doris官方公众号，后台回复“0629”即可获取各位嘉宾分享PPT及现场录像。今天是朱良昌同学代表百度智能云流式计算团队带来Spark Streaming对接Doris 设计与实现的分享。业务场景

doris使用spark

大数据

python

java

数据库

ganmaobuhaowan

3月前

464阅读

spark 可视化和java调用 spark可视化编程

Spark中的编程模型1. Spark中的基本概念在Spark中，有下面的基本概念。Application:基于Spark的用户程序，包含了一个driver program和集群中多个executorDriver Program：运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor：为某Applic

spark 可视化和java调用

数据集

spark

List

柳随风

3月前

400阅读

spark需要开启的端口

目前Spark的Run on的Hadoop版本大多是hadoop2以上，但是实际上各个公司的生产环境不尽相同，用到2.0以上的公司还是少数。大多数公司还是停留在1代hadoop上，所以我就拿spark0.91 + hadoop0.20.2-cdh3u5来部署一个小集群，以供测试学习使用。一、环境概况 Spark集群3台： web01: slave web02: mast

spark需要开启的端口

spark

hdfs

SPARK

hadoop

人类新新

3月前

358阅读

电测机spark功能电测机测试参数

电涡流测功机是目前国内先进的加载测功设备，主要用来测量各种动力装置的机械性能。DW及DWD系列主要由旋转部分（感应盘）、摆动部分（电枢和励磁部分）、测力部分和校正部分组成。　　励磁绕组通电后，产生一个闭合磁通。当感应盘（齿状）旋转时，气隙磁密随之发生周期性变化，感应出涡流，由于“涡流”和磁场的耦合作用，在转子上产生制动力矩，而在电枢体上则产生与拖动力

电测机spark功能

加载

detailtoo

3月前

427阅读

怎么查看spark executor的环境变量 spark查看版本

Spark在 Spark Core 之上提供了很多面向不同使用场景的高层API。比如 Spark Streaming、Spark SQL 、GraphX 、MLlib选择spark streaming 做为源码定制的出发点的原因：从依赖的专业知识上讲，相对于其他API ，无需引入过多的专业领域的依赖知识。从技术层面上讲，是在原有Spark Core基础上升了一维。

大数据

spark

Streaming

数据

烟雨江南的秋

3月前

361阅读

iceberg spark引擎建表

目录一，安装hdfs（主要使用hdfs，yarn，hive组件）零碎知识点二，Hive数仓整合iceberg（重点）1，前提2，下载安装mysql3，下载安装Hive数仓4，在 Hive 中启用 Iceberg 支持4.1 hive-site.xml的配置4.2 hadoop的core-site.xml配置4.3 hadoop的hdfs-site.xml配置4.4 hadoop的yarn-site

iceberg spark引擎建表

hive

hadoop

Hive

kekenai

3月前

381阅读

spark设置存储格式 spark中默认的存储级别

rdd的全称为Resilient Distributed Datasets（弹性分布式数据集）rdd的操作有两种transfrom和action。transfrom并不引发真正的rdd计算，action才会引发真正的rdd计算。rdd的持久化是便于rdd计算的重复使用。官方的api说明如下： persist ( storageLevel=StorageLevel(False,

spark设置存储格式

RDD

持久化

数据集

序列化

mob64ca13fd559d

3月前

392阅读