Spark博客_原创博文第11页

单机搭建spark 单机搭建android开发环境

最近在学Android手机应用程序开发。和大家分享一下我的经验。首先是 Windows 下 Android 开发环境的搭建：需要准备的软件包有：1、 jdk-6u24-windows-i586.exe 下载网站：https://cds.sun.com/is-bin/INTERSHOP.enfinity/WFS/CDS-CDS_Developer-Site/en_US/-/USD/ViewFi

单机搭建spark

移动开发

开发工具

操作系统

android

蓝梦之翼

2月前

350阅读

Apache DolphinScheduler(incubating)，简称”DS”, 中文名 “海豚调度”（海豚聪明、人性化，又左右脑可互相换班，终生不用睡觉）。DolphinScheduler 正在像它的名字一样，努力成为一个“开箱即用”的灵活易用的强大的大数据智能调度平台。Apache DolphinScheduler(Incubating)社区在最近迎来了好消息，经过 Apache Dol

海豚如何获取spark运行的状态

Apache

API

开源社区

mob64ca1417eedd

2月前

339阅读

有关spark的论文基于spark数据处理与分析

大数据呈现出不同的形态和大小。它可以是批处理数据，也可以是实时数据流；对前者需要离线处理，需要较多的时间来处理大量的数据行，产生结果和有洞察力的见解，而对后者需要实时处理并几乎同时生成对数据的见解。我们已经了解了如何将Apache Spark应用于处理批数据（Spark Core）以及处理实时数据（Spark Streaming）。有时候，所需处理的数据是很自然地联系在一起的。譬如，在社交媒体

有关spark的论文

数据

数据集

数据处理

mob64ca1413c518

2月前

377阅读

spark3 数据抽样 spark进行数据分析

Spark是一款非常流行同时功能又十分强大的实时数据分析工具。在本 Spark序列教程的第一部分，我们已经对Spark进行了介绍，讲解了Spark的历史，详细解释了用于在Spark集群中进行数据分片存储的弹性分布式数据集（ RDDs）并对Apache Spark的生态系统进行了介绍。本教程（第二部分）将对Spark生态系统中占有重要地位的Spark SQ

spark3 数据抽样

spark

SQL

sql

bingfeng

2月前

322阅读

spark 设置生成文件分割大小 spark文档

Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContextDiscretized Streams (DStreams)（离散化流）Input DStreams 和 Receivers（接收器）DStreams 上的 Transformations（转换）DStreams 上的输出操作DataFrame 和 SQL 操作MLlib 操作缓存 / 持久

spark 设置生成文件分割大小

python

scala

java

Streaming

温柔一刀

2月前

417阅读

airflow sparkoperator 代码样例

1. 本地部署1. 依赖2. 升级Python3.7 以 root 用户运行 #!/bin/bash # File: upgrade_python37.sh # User: root # Os: Cen

python

mysql

redis

laokugonggao

2月前

339阅读

免费正规外国sparking实践海外实训网

1、Udemy Udemy是全球最著名的在线教育网站，网站提供令人难以置信的流行和宝贵的课程资源。用户在Udemy里可以搜索到超过40000个不同主题的课程，以及还可以下载Udemy应用程序，使用手机快速的学习课程。Udemy课程不是免费提供的，课程最低为12美元，用户也可以创建和发布自己的课程。 2、Coursera Coursera是一个提供超过全球140个国家顶级大学和组织课程的教育网站。C

免费正规外国sparking实践

自然语言处理

mongodb

nosql

memcached

mob6454cc7416d1

2月前

1067阅读

从数据血缘到AI Agent：天翼云 × DolphinScheduler 的云上调度新篇章

在数据驱动与智能化的浪潮下，数据调度平台的价值正在被重新定义。天翼云翼 MR 与 Apache DolphinScheduler 的结合，不仅是一次技术选型，更是一次从社区到企业的深度融合与创新探索。

大数据

DolphinScheduler

天翼云

数据血缘

任务调度

原创

海豚调度平台

2月前

70阅读

从数据血缘到AI Agent：天翼云 × DolphinScheduler 的云上调度新篇章

Apache DolphinScheduler 7 月社区月报 | 关键修复与性能优化全面推进

7 月份，Apache DolphinScheduler 社区持续高能迭代，多个核心模块迎来重要修复与优化。在 K8S 环境下解决了 PodIP 变化导致无法重新连接 Zookeeper 的问题，依赖任务、变量池、COS 资源管理等功能均获关键修复，提升了系统稳定性与可用性。

Apache

DolphinScheduler

开源

大数据

原创

海豚调度平台

2月前

64阅读

Apache DolphinScheduler 7 月社区月报 | 关键修复与性能优化全面推进

spark 遍历 list 本地路径 spark sortbykey

1.sortByKey 无可非议sortByKey是Spark的最常用的排序，简单的案例暂且跳过，下面给一个非简单的案例，进入排序之旅对下面简单元祖，要求先按元素1升序，若元素1相同，则再按元素3升序 (1, 6, 3), (2, 3, 3), (1, 1, 2), (1, 3, 5), (2, 1, 2)提示：sortByKey对于key是单个元素排序很简单，如果key

spark 遍历 list 本地路径

java

ci

元组

技术极客之光

2月前

395阅读

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对话系统多轮交互优化与用户体验提升（351）

本文结合 12 个行业案例，详解 Java 大数据机器学习模型在对话系统多轮交互中的应用。通过上下文追踪、复合意图拆解等技术，将交互准确率从 65% 升至 91%，附完整代码与跨设备同步方案，提升用户体验。

Java

redis

对话系统

多轮交互

大数据

原创

青云交技术圈

2月前

92阅读

yyds干货盘点

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对话系统多轮交互优化与用户体验提升（351）

Java 大视界 -- Java 大数据机器学习模型在金融风险传染路径分析与防控策略制定中的应用（347）

本文结合 11 个案例（含保险资管）、180 万亿数据，详解 Java 机器学习模型在金融风险传染分析与防控中的应用。跨机构 / 市场 / 业态识别路径，预警提前 3 天，准确率 92%，附合规代码。

Java

数据

大数据

金融风险

原创

青云交技术圈

2月前

56阅读

yyds干货盘点

Java 大视界 -- Java 大数据机器学习模型在金融风险传染路径分析与防控策略制定中的应用（347）

spark driver cpu 飙高 spark gpu加速

一、资源：Spark进行机器学习，支持GPU为了使用Spark进行机器学习，支持GPU是必须的，上层再运行神经网络引擎。目前AWS\GCP和Databricks的云都已经支持GPU的机器学习，AliYun也在实验之中。这包括几个层次：GPU直接支持Spark。因为Spark是多线程的，而GPU往往只能起一个单例，导致线程会竞争GPU资源，需要进行管理、加锁和调度。方法包括：原生代码内置编译支持。

spark driver cpu 飙高

spark

Java

Docker

epeppanda

2月前

435阅读

graphite 支持spark版本 graphite particles

三维石墨晶体（Graphite ）属于第186 号空间群（P6(3)mc ），立方晶系（Hexagonal ），每个原胞里有4 个不对称的原子。用Cartes 软件构造三维石墨晶体分成以下几个步骤：编写初始Graphite.gjf 文件。用文本编辑器（记事本或Ul

graphite 支持spark版本

文本编辑

c

Graph

文本编辑器

网线小游侠

2月前

398阅读

cdh 如何看spark 版本 linux怎么看spark版本

最近想要学习spark，首先需要搭建spark的环境，之前零零散散也接触过一些spark的东西，但是都没有记录下来。刚好新安装了一个ubuntu18.04系统，想在此系统上进行环境搭建，趁机记录一下过程。访问spark的官网，阅读spark的安装过程，发现spark需要使用到hadoop，java JDK等，当然官网也提供了Hadoop free的版本。本文还是从安装java JDK开始，逐步完成

cdh 如何看spark 版本

spark环境和linux

spark

hadoop

java

mob64ca13fb6939

2月前

416阅读

kettle提交spark的几种方式 kettle spoon

文章目录一、入门1.Kettle简介2.Kettle下载3.Kettle部署4.界面简介5.快速体验6.执行结果7.核心概念二、输入控件1.csv文件输入2.文本文件输入3.Excel输入4.多文件合并5.Get data from XML6.Json input7.生成记录8.表输入（数据库表）9.自定义常量数据三、输出控件1.Excel输出2.文本文件输出3.SQL文件输出4.表输出（数据库

kettle提交spark的几种方式

字段

数据

控件

AI大梦想家

2月前

361阅读

spark 实时分析 spark实验

实验指导：15.1 实验目的1．通过Spark-shell的操作理解RDD操作；2．能通过RDD操作的执行理解RDD的原理；3．对Scala能有一定的认识。15.2 实验要求在实验结束时能完成max，first，distinct，foreach等api的操作。15.3 实验原理RDD(Resilient Distributed Datasets，弹性分布式数据集)是一个分区的只读记录的集合。

spark 实时分析

Spark实验—RDD综合实验

spark

scala

数据

mob64ca140c3859

2月前

321阅读

flick和spark区别 sparkle和spark

Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 的社区版本，比如增强 Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI…Hadoop Roadmap 根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature 属于安全，稳定可靠性一方面是比较稳定了，但也可

flick和spark区别

Spark

bigdata

大数据

Apache

feiry

2月前

344阅读

spark on kubernetes开发 spark项目开发技术

图一Spark一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点，但不同的是Job的中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用，也可以独立使用。作为大数据开发中最重要的技术点，为了达到工作中的需求，应该学习哪些技术呢

大数据

spark

hadoop

资源调度

Hadoop

数据探索家

2月前

399阅读

spark证书是什么证书 spark是什么平台

Sameer是就职于Databricks的客户服务工程师，专注于Spark相关的技术支持、咨询和培训。在加入Databricks之前，他以大数据培训师和咨询师的自由职业者身份，在全球范围内进行了超过120多次以大数据为主题的教学，内容包括Hadoop，HDFS，MapReduce，Hive，Pig，HBase等等。在成为自由职业者之前，Sameer曾在Hortonworks，Accenture

spark证书是什么证书

spark

HDFS

Hadoop

关系型数据库

IT剑客风云

2月前

385阅读

spark邮箱防火墙

　　如果您的网络中有防火墙，您需要在防火墙中设置允许DBMail访问网络，并且打开25 (SMTP)，110 (POP3)，80 (Webmail)三个TCP端口。如果没有允许DBMail邮件服务器访问防火墙，将会导致DBMail服务器不能收发邮件。　　1、Windows 2003防火墙　　1) 打开Windows的控制面板 -> Windows 防火墙。　　2) 在弹出的“Windows

spark邮箱防火墙

Windows

邮件服务器

TCP

小题大作

2月前

466阅读

NetSparkle 使用教程

ZooKeeper状态以及状态的转换一个会话从NOT_CONNECTED状态开始，当客户端初始化后转换成CONNECTTING状态（箭头1）。当客服端与服务器断开连接，状态转换成CONNECTED状态（箭头2）。当客服端与服务器断开连接或者无法接收到服务器的响应时，就会转换回CONNECTING状态（箭头3）并尝试发现其他服务器。如果发现了另外一个服务器或者重连到原来的服务器，当服务器确认会话有效

NetSparkle 使用教程

java

linux

数据库

服务器

数据狂徒

2月前

350阅读

spark不能存储struct结构的对象到mysql中 spark不适合处理离线数据

sparkSql数据离线处理前言：本文作为本人学习sparkSql离线数据抽取，离线数据处理的学习整理记录，文中参考博客均附上原文链接。一、Hive环境准备1、配置文件准备：/opt/hive/conf/hive-site.xml:(2021/12/31修改，添加了&useSSL=false&useUnicode=true&characterEncoding=utf8支持中

hive

big data

hadoop

spark

scala

码海无压

2月前

391阅读

spark不能存储struct结构的对象到mysql中 spark不适合处理离线数据

Spark ML用什么软件 spark用什么开发

SparkAuthor: LijbApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读

Spark ML用什么软件

大数据

scala

运维

spark

网络智叶

2月前

345阅读

iserver spark数据源 spark 数据源有哪些

SparkSQL数据源手动指定选项Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDD的方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时，Spark SQL可以方便的执行所有的操作。修改配置项spa

iserver spark数据源

sql

spark

数据源

编程艺术之光

2月前

420阅读

spark rdd程序设计

引子 Spark计算框架为了能够对数据进行高并发和高吞吐的处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：1)RDD : 弹性分布式数据集2)累加器：分布式共享只写变量3)广播变量：分布式共享只读变量ps:数据结构:简单理解为数据与逻辑的组织形式和存储方式RDD1.RDD定义? RDD（Resilient Distributed Dataset）为弹性分布式数据集，是S

spark rdd程序设计

#spark

#big data

#分布式

封装

小屁孩

2月前

369阅读

spark 将自定义listener注册到listenerBus sparksql自定义数据源

第3章 SparkSQL数据源3.1 通用加载/保存方法3.1.1 手动指定选项Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时，Spark SQL可

spark

sql

Hive

footballboy

2月前

405阅读

spark 将自定义listener注册到listenerBus sparksql自定义数据源

Java 大视界 -- Java 大数据机器学习模型在金融风险传染路径分析与防控策略制定中的应用（347）

本文结合 11 个案例（含保险资管）、180 万亿数据，详解 Java 机器学习模型在金融风险传染分析与防控中的应用。跨机构 / 市场 / 业态识别路径，预警提前 3 天，准确率 92%，附合规代码。

Java

数据

风控

金融风险

机器学习

原创

青云交技术圈

2月前

34阅读

yyds干货盘点

Spark Desktop 邮件管理

一、RDD回顾1、RDD分两个特性 transformation: lazy map filter union flatMap mapPartition action: eager ==> Spark Job collect take二、Spark开发-日志统计分析1、创建scala工程、pom.xml文件引入hadoop、scala、

Spark Desktop 邮件管理

BigData

字符串

字段

需求分析

mob64ca140a1f7c

2月前

435阅读

Spark SQL 不支持 map join 语法

不上spark已经不能解决问题了，根据网上的资料以及自己的实践，确认如下方法是可行的，供参考。一、概要Spark的框架是用Scala编写的，而Scala是一种运行在Java虚拟机上实现和Java类库互联互通的面向对象及函数式编程语言，PySpark使用Python开发所以需要使用Py4J(用Python和Java编写的库，通过Py4J，Python程序能够动态访问Java虚拟机中的Java对象，J

坯子库安装不上

hadoop

spark

Java

mob64ca141834d3

2月前

461阅读