Spark博客_原创博文第21页

spark实现定时任务

spark streaming 开发实例本文将分以下几部分spark 开发环境配置如何创建spark项目编写streaming代码示例如何调试环境配置：spark 原生语言是scala，我用的是spark-1.4.1-bin-hadoop2.6，可以查阅官方说明，用的是scala-2.10.1。网上下载 scala-2.10.1 安装包。解压即可。配置环境变量：SCALA_HOMEpa

spark实现定时任务

scala

spark

maven

mob64ca140c3859

4月前

443阅读

spark为什么不需要排序 spark只能用scala编程吗

rdd-programming-guide官网地址：http://spark.apache.org/docs/latest/rdd-programming-guide.html本文是根据官网原文翻译简化，是个人在学习过程中消化所得，感觉可以作为初识spark的一个指导文档，也是spark的核心东西。Linking with Spark（准备使用spark）spark是基于scala的语言环境的，s

spark为什么不需要排序

spark

scala

序列化

智慧编织者

4月前

397阅读

vscode 连接spark session

昨晚，使用 FileZilla 的 SFTP 连接 Ubuntu Server 10.10 时碰到一个诡异错误：Filezilla client 日志信息代码状态: 正在连接 10.1.13.69... 响应: fzSftp started 命令: keyfile "E:\key\Bert_id_rsa.ppk"命令: open "tdhadoop@10.1.13.69

sed

服务器

Server

漫步云端的猪

4月前

362阅读

spark3兼容spark2代码嘛

1.spark中的RDD是什么，有哪些特性？答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合Dataset：就是一个集合，用于存放数据的Destributed：分布式，可以并行在集群计算Resilient：表示弹性的，弹性表示1.RDD中的数据可以存储在内存或者磁盘中；2

spark3兼容spark2代码嘛

面试题

数据

spark

数据倾斜

goody

4月前

374阅读

企业spark案例出租车轨迹分析头歌

属于时空预测方向，在人工智能相关会议上有不少工作值得借鉴。原始数据集总结一、TaxiBJ，北京出租车数据集，郑宇，"BJ15_M32x32_T30_InOut.h5"，原始数据shape=(5596,2,32,32)，"2"代表出In/Out两种流量。 https://github.com/lucktroy/DeepST/tree/master/data/TaxiBJgithub.c

kdd数据集

数据

数据集

github

kekenai

4月前

463阅读

spark 启动日志

实验环境： zookeeper-3.4.6 Spark：1.6.0 简介：本篇博客将从以下几点组织文章：一：Spark 构建高可用HA架构二：动手实战构建高可用HA 三：提交程序测试HA一：Spark 构建高可用HA架构 Spark本身是Master和Slave,而这这里的

spark 启动日志

spark

ide

java

编程小匠人传奇

4月前

374阅读

kylin spark 配置 kylin linux3

目录Kylin构建优化Kylin 新手必看：Cube 越用越好，存储越用越少Kylin-4.0全网第一份 Kylin 4.0 性能调优指南！增量Cube设计增量构建的前提自动合并保留Segment数据持续更新Cube剪枝优化聚合组Aggravation Group强制维度(Mandatory Dimensions)层次维度(Hierarchy Dimensions)联合维度(Joint Dime

kylin spark 配置

大数据

kylin

数据

主键

mob64ca14092155

4月前

387阅读

为什么spark使用磁盘还会oom spark遇到的问题

以下是在学习和使用spark过程中遇到的一些问题，记录下来。1、首先来说说spark任务运行完后查错最常用的一个命令，那就是把任务运行日志down下来。程序存在错误，将日志down下来查看具体原因!down日志命令：yarn logs -applicationId app_id2、Spark性能优化的9大问题及其解决方案Spark程序优化所需要关注的几个关键点——最主要的是数据序列化和内存优化问

为什么spark使用磁盘还会oom

spark

java

apache

mob64ca1401464d

4月前

392阅读

Java 大视界 -- 基于 Java 的大数据可视化在能源互联网全景展示与能源调度决策支持中的应用（300）

本文系统阐述 Java 在能源互联网大数据可视化中的全栈应用，涵盖多协议数据采集、三维渲染、智能决策等核心技术。结合德国 Energiewende、中国青海等案例，提供可落地的代码与优化策略，为能源调度智能化提供技术路径。

Java

数据

能源互联网

大数据可视化

大数据

原创

青云交技术圈

4月前

127阅读

yyds干货盘点

Java 大视界 -- 基于 Java 的大数据可视化在能源互联网全景展示与能源调度决策支持中的应用（300）

sparkpython语句 python操作spark

Apache Spark是一个对开发者提供完备的库和API的集群计算系统，并且支持多种语言，包括Java，Python，R和Scala。SparkSQL相当于Apache Spark的一个模块，在DataFrame API的帮助下可用来处理非结构化数据。通过名为PySpark的Spark Python API，Python实现了处理结构化数据的Spark编程模型。这篇文章的目标是展示如何通过PyS

sparkpython语句

spark

sql

json

mob64ca13ffd0f1

4月前

341阅读

在虚拟机pycharm中找不到pyspark的命令虚拟机下载pycharm

这里写自定义目录标题pyCharm的下载与安装pyCharm的安装pyCharm的基本使用venv文件的作用解释器的不同第三方库的引入 pyCharm的下载与安装pyCharm的下载地址：https://www.jetbrains.com/pycharm/download/#section=windows 根据自己的电脑版本进行安装，可以下载专业版，也可以下载社区版，在校生通过edu的邮箱可以免费

pycharm

python

windows

虚拟环境

第三方库

智能开发者

4月前

376阅读

spark随机抽样随机抽样 python

最近发现两个比较有意思的随机抽样算法，分享一下1. 随机抽样且保持有序需求:一家公司购买了他们的第一批电脑，该公司的业务主要是民意调查，现在要开发一个程序：程序的输入是选区名列表以及整数 m，输出是随机选择的 m 个选区名列表。通常选区名有几百个，m 通常在 20 ~ 40。程序描述:程序的输入包含两个整数 m 和 n，其中 m简单点来说，就是有 n 个数，随机取 m 个，并保持有序。解法:我们

spark随机抽样

python随机抽号

赋值

Python

随机数

mob64ca13fe62db

4月前

380阅读

sparkshell 连接Clickhouse spark link

Starlink的卫星设计Starlink卫星是SpaceX公司4425星低轨移动的通信星座，旨在为地球上的每个人提供宽带互联网，它将在1150公里的轨道上运行大约1万颗卫星。这种量产型卫星搭载了通信载荷，通信频点采用Ku和Ka波段，卫星采用光学星间链路，相控阵波束形成和数字处理技术。Starlink卫星外形特征为平板设计，带有一块太阳电池阵，单星重量227kg，卫星在运载整流罩内采用堆栈叠放方式

链路

Falcon

当前版本

码海探险家

4月前

323阅读

spark可视化配置管理 spark可视化界面

1，运行hive时，出现包错误原因：spark版本升级到2.x以后,原有lib目录下的大JAR包被分散成多个小JAR包，原来的spark-assembly-*.jar已经不存在，所以hive没有办法找到这个JAR包。要做的只是将hive中的启动文件中的sparkAssemblyPath这一行更改为之前安装spark的jar包路径即可。解决方法：编辑hive/bin的hive文件，将下面

spark可视化配置管理

hive

spark

sqoop

小蝌蚪

4月前

379阅读

spark java离线处理 spark离线计算

离线计算平台简介在蚂蚁金服风控体系里面，有一个重要的环节就是离线仿真，在规则，模型上线之前，在离线的环境里面进行仿真验证，来对规则和模型进行效能的评估，避免人为因素造成不准确性从而造成的资损。起初为了达到这个目的，离线计算平台就这样孕育而生了，慢慢地整个离线平台覆盖了更多风控的业务，也慢慢变成目前Odps-Spark最大的用户，拥有的集群数目也是最大的。离线计算平台主要以Spark为基础，在其上建

spark java离线处理

大数据

系统安全

数据结构与算法

离线

mob64ca14068b0b

4月前

408阅读

sp免费正规spark网站 sp ll

话说真正做PHP程序员也将近三年了,感觉还是有老多东西不懂不了解，最近想学习ZF2 边看框架边想弄个博客出来，谁知道ZF框架里面各种设计模式啊，各种高深的东西啊，各种不理解啊。最关键的是它无处不在的SPL的东西啊，虽然知道这东西很久了，但只是一知半解，所以决定好好整理整理SPL 的知识。看看手册，看看博客，决定整合翻译翻译前人的东西。主要内容：什么是SPL 什么是 Iterators(迭代器)

sp免费正规spark网站

数组

php

迭代器

mob64ca1418aeab

4月前

486阅读

spark 选择memery and disk 为什么会有溢写

继上篇《Spark源码分析之Job的调度模型与运行反馈》之后，我们继续来看第二阶段--Stage划分。 Stage划分的大体流程如下图所示：前面提到，对于JobSubmitted事件，我们通过调用DAGScheduler的handleJobSubmitted()方法来处理。那么我

数据结构

ci

sed

技术博客达人

4月前

344阅读

pyspark在输入for循环时如何实现换行输入

目录一、上节课内容回顾二、流程控制之while循环2.1 什么是循环2.2 while 语法2.3 while 的break、continue、else的使用2.4 while语句的小练习三、流程控制之for循环3.1 语法3.2 while循环和for循环的区别3.3 for循环的break、continue、else的使用四、今日练习总结一、上节课内容回顾三种格式化输出占位

for循环

while循环

流程控制

bugouhen

4月前

386阅读

远程 Spark sql

Win7开启远程桌面作为开发人员，你不可能每天24小时待在公司里，但你有可能要24小时随时待命，解决线上bug，这时远程控制就比较有用！通过windows系统提供的“远程桌面”服务，可以方便的进行远程电脑的操作。 1. 建立远程连接点击开始菜单（或win+R），在搜索框中输入 mstsc 回车，然后在弹出窗口中输入远程桌面的IP，点击“连接”，若连接成功，则会弹出新的窗口，让输入系统用户名和

远程 Spark sql

远程桌面

用户名

远程连接

mob64ca140c3859

4月前

353阅读

Java 大视界 -- Java 大数据在智能医疗远程会诊中的多模态医学影像融合与协同诊断（296）

本文系统阐述 Java 大数据在智能医疗远程会诊中的应用，深入解析多模态影像采集、特征融合、智能诊断全流程。结合多家三甲医院真实案例，提供生产级代码与优化策略，助力构建高效、安全、智能的医疗影像协同平台。

Java

大数据

智能医疗

远程会诊

多模态

原创

青云交技术圈

4月前

138阅读

Java 大视界 -- Java 大数据在智能医疗远程会诊中的多模态医学影像融合与协同诊断（296）

Spark rest API取消任务关闭spark集群命令

Hadoop,Spark集群 spark集群搭建准备Centos环境关闭虚拟机防火墙： # 1、直接关闭防火墙 systemctl stop firewalld.service #停止firewall systemctl disable firewalld.service #禁止firewall开机启动 firewall-cmd --state #查看默认防火墙状态（关闭后显示notrunni

Spark rest API取消任务

pythonspark网页

hadoop

spark

hdfs

kekenai

4月前

375阅读

spark在页面停止服务

转换DStream上的原语分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种Window相关的原语。 TransformationMeaningmap(func)将源DStream中的每个元素通过一个函数func从而得到新的DStreams

spark在页面停止服务

spark

数据

apache

mob64ca13fbd761

4月前

381阅读

大数据技术有哪些类似spark 和大数据相关的技术

大数据技术有哪些类似spark

Apache

SQL

Hive

话不是这么说的

4月前

373阅读

spark javardd Java连接条件多个列运算

大多数开发者认为性能优化是一个复杂的话题，它需要大量的工作经验和相关知识理论。好吧，这也不完全错。优化一个应用做到性能最优化可能不是件容易的任务，但是这并不意味着你没有相关的知识就什么也做不了。这里有一些易于遵循的建议和最佳实践可以帮助你创建一个性能良好的应用程序。这些建议的大部分都是针对 Java 语言的。但是也有一些是跟语言无关的，你可以运用到任意的应用和程序中。在我们学习特定的 Java 编

从0到1

缓存

应用程序

互联网小思悟

4月前

335阅读

SPARK 阿里阿里的seata

1. 阿里分布式事务seata入门（采坑）1.1. 前言 seata是feascar改名而来，这是阿里在19年年初开源出来的分布式事务框架，当初刚出来的时候就想研究下了，一直拖到了现在，目前是0.8.0版本，看版本就知道这还是个比较新的项目，但现在已经有上万个Star了，可见阿里的影响力。但是虽然有阿里背书，该挖坑还得挖，它宣称集成它比较简单，导致的是现在它的文档优点残缺不全，好几个文档标题点进去

SPARK 阿里

服务端

配置文件

spring

jojo

4月前

375阅读

spark dataframe和Spark SQL的区别

第1章 Spark概述1.1 什么是Spark　　回顾：Hadoop主要解决，海量数据的存储和海量数据的分析计算。是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 1.2 Hadoop与Spark历史　　Hadoop的Yarn框架比Spark框架诞生的晚，所以Spark自己也设计了一套资源调度框架。 1.3MR与Spark框架对比 1.4 Spark内置模块：实现了Spark的基本功能，

spark

jar

Hadoop

mob64ca1418e88d

4月前

402阅读

pyspark决策树多分类算法鸢尾花 python决策树分类案例

目录1、分类决策树案例（1）导入相关模块与数据（2）数据清洗与划分训练集、测试集（3）构建决策树（4）考察成本复杂性参数与叶节点总不纯度的关系（5）通过10折交叉验证选择最优的超参数ccp_alpha值，并拟合模型（6）计算每个变量重要性并进行可视化（7）使用测试集进行预测，并计算混淆矩阵（8）计算预测准确率与灵敏度、kappa指标（9）以0.1作为临界值重新进行预测，计算混淆矩阵与预测准确率、灵

pyspark决策树多分类算法鸢尾花

机器学习

决策树

分类

回归

mob6454cc6d3e23

4月前

430阅读

pyspark出现oom错误解决方法 pyspark onehotencoder

文章目录问题描述解决办法1解决办法 2 问题描述在用spark进行大规模机器学习的时候，无论是label编码还是onehot，都会遇到这个问题：预测的时候遇到新值（没有出现在编码规则里的新值）的问题。如果spark集群版本是2.4的往下看，如果是3.1或之上的就不用往下看了stringindexer = StringIndexer(inputCols=["value"], outputCols=[

pyspark出现oom错误解决方法

机器学习

iphone

spark

解决方案

云端创新梦想家

4月前

368阅读

pyspark出现oom错误解决方法 pyspark onehotencoder

designspark转换成ad

Cadence很强大，PADS很方便，很多企业都在用这两个EDA软件，有的人习惯Cadence，有的人习惯PADS，有些公司用Cadence，有些公司用Pads,有时我们需要将两种软件格式的PCB和原理图相互转换，下面是将Cadence Allegro的PCB文件转化为PADS的PCB文件的方法 Cadence软件，我安装的是Cadence16.6PADS软件，我安装的是最新

designspark转换成ad

变量名

添加用户

Data

mob64ca13fd559d

4月前

384阅读

HiSpark 智能小车套件开发案例手把手教学实现避障与循迹功能之

本文将详细介绍JetBot的硬件安装过程，并提供了安装全过程的视频。视频地址：https://www.bilibili.com/video/av53071561/ 由于拍摄过程中主摄像头抽风，视频内容不可用，所以只能用副摄像头的素材，画质有点强差人意，请见谅。也可参考官Git的安装过程互补长短（本文也有部分图片也来自于这里）：https://github.com/NVIDIA-AI-IO

JetBot

组装

自动驾驶

DIY

驱动模块

信息流星

4月前

369阅读