Spark博客_原创博文第19页

spark项目实践心得体会 spark课程设计心得体会

今天，主要想聊聊spark streaming的使用心得。1，基本使用主要是转换算子，action，和状态算子，这些其实，就按照api手册或者源码里接口介绍结合业务来编码。其实，想用好spark streaming 掌握spark core，spark rpc，spark 任务调度，spark 并行度等原理还非常有必要。2，中间状态缓存说到中间算子大家肯定都会想到UpdateStateByKey等

spark项目实践心得体会

spark

kafka

调优

编程之翼

3月前

392阅读

用spark的求一个景点的游玩总人数

1 spark streaming 程序代码实例代码如下： [html] view plain copy 1. 2. object OnlineTheTop3ItemForEachCategory2DB { 3.

用spark的求一个景点的游玩总人数

大数据

网络

ui

html

mob64ca14157da7

3月前

349阅读

搜索数据建设系列之数据架构重构

BD搜索数据建设以创新实践突破传统数仓挑战，依托宽表模型、计算引擎优化及图灵3.0模式，实现高效稳定低成本，赋能业务敏捷迭代。

搜索

spark

数仓模型设计

计算引擎优化

图灵3.0开发模式

原创

百度Geek说

3月前

112阅读

spark读取数据将结果保存为csv文件 spark读文件存hive表

Hive表：name的时间流水数据。name数据可能是一条，可能多条数据。nametimed1d2d3d4d5d6d7d8d9d10d11d12d13d14d151156376450111111111111111111563764502111111111111111MongoDB文档格式：一年的数据一个Collection 一个Collection一个用户数据都在同一个name文档里面 {

spark

cloudera

mongodb

apache

ide

mob64ca1410eb61

3月前

434阅读

cdh 添加spark2 cdh安装kerberos

一、Kerberos概述：Kerberos是一个用于安全认证第三方协议，并不是Hadoop专用，你也可以将其用于其他系统，它采用了传统的共享密钥的方式，实现了在网络环境不一定保证安全的环境下，client和server之间的通信，适用于client/server模型，由MIT开发和实现。而使用Cloudera Manager可以较为轻松的实现界面化的Kerberos集成， K

cdh 添加spark2

ci

cloudera

hive

mob64ca141139a2

3月前

418阅读

pinpoint 支持 spark吗 pinpoint功能介绍

简介pinpoint是开源在github上的一款APM监控工具，它是用Java编写的，用于大规模分布式系统监控。它对性能的影响最小（只增加约3％资源利用率），安装agent是无侵入式的。各大APM工具，几乎都是根据google这篇经典的Dapper论文而来，一定要读一读。 pinpoint提供了一些功能：服务映射：通过可视化其组件如何互连来了解任何分布式系统的关联关系。单击节点可显示有关

pinpoint 支持 spark吗

应用程序

tomcat

UI

小鱼儿

3月前

410阅读

Spark可以存储到磁盘为什么还会OOM spark默认的存储级别(a)

一.RDD是什么， 1.有哪些特点（面试常考题）。 2.RDD常用的3种创建方式。 3. RDD的常用算子：转换、动作、 4. 缓存。共享变量的使用。 &

spark

缓存

数据

共享变量

数据分析家

3月前

351阅读

spark yarn地址 spark address already in use

bind: Address already in use 解决办法： 1.输入命令： ps -aux 查找当前程序所在进程号：我的问题程序：have_a_try_SocketCommunication；进程号：6230 6231 root 615

spark yarn地址

网络

操作系统

python

套接字

mob64ca13faa4e6

3月前

417阅读

presto和spark跑出来的结果不一样

1. 介绍2. 准备数据2.1 清空系统缓存3. MR测试3.1 MR without alluxio3.2 MR with alluxio3.3 问题补充4. spark测试4.1 spark without alluxio4.2 spark with alluxio5. 第一阶段实验总结6. IO实验6.1 任务负载6.2 从HDFS中读取10G文件6.3 从HDFS中读取10G文件7. 进一

大数据

shell

spark

HDFS

数据

Aceryt

3月前

392阅读

countdistinct函数 spark count distinct if

我们稍做修改 select partition_date,count(user_id), count(distinct if(user_is_new = 1, user_id, 0)) --注意新增用户量的统计,加了distinct去重 from dw.nice_live_dw_user_active_day where location_city like '%xxx%' and parti

数据

ci

hive

mob64ca1409970a

3月前

369阅读

pyspark读mysql数据 pyspark sql教程

tags:PySpark大数据 img: /medias/featureimages/9.jpg author: foochane toc: true mathjax: false本文作者：foochane 1 大数据简介大数据是这个时代最热门的话题之一。但是什么是大数据呢?它描述了一个庞大的数据集，并且正在以惊人的速度增长。大数据除了体积(Volume)和速度(velocity)外

pyspark读mysql数据

数据

Hadoop

Apache

mob64ca14193248

3月前

364阅读

spark 查分区数据未0 spark分区规则

目录一、概述二、从算子角度理解spark分区1.Source算子2.Transformation算子①repartition&coalease②groupby & groupbykey &partitionby(new HashPartitioner(num)) & reducebykey... & repartitionAndSortWithinParti

spark 查分区数据未0

spark

大数据

scala

数据

hochie

3月前

323阅读

创建一个idea spark demo

我最近一直在玩新的Unity3D机器学习系统，取得了一点进展。我想分享我发现的步骤，以获得一个新创建的Agent设置，并经过训练完成一项基本任务。在这篇文章中，您将看到如何设置基本Agent，目的是使用增强机器学习来完成随机选择的数字。我们将使用新的Unity ML Agent系统和tensorflow来创建和训练Agent完成任务，并讨论将其扩展到真实游戏AI的方法。设置 Tens

创建一个idea spark demo

List

ide

python

网络安全守护神

3月前

381阅读

使用dolphin scheduler3创建spark任务 apache dolphin schedule

GitHub:https://github.com/apache/dolphinscheduler版本发布 2022/8/102022 年 8 月 10 日，Apache DolphinScheduler 在经过 3.0.0 alpha、3.0.0-beta-1、3.0.0-beta-2 不断验证之后，终于迎来了社区期盼已久的第三个大版本！3.0.0 正式版本发生了自发版以来的最大幅度变动，新增了

apache

java

大数据

UI

Amazon

墨舞天涯

3月前

442阅读

使用dolphin scheduler3创建spark任务 apache dolphin schedule

apache spark 官网中国

map遍历每一个元素 mapPartitions每次遍历一个分区foreach action算子foreachPartitions action算子collectnginx flume hdfs hbase spark mysql如果是插入数据，那么foreachPartition比较好，因为每个分区建立一个连接提交的一个任务中，存在几个

apache spark 官网中国

scala

spark

apache

mob64ca140e0490

3月前

410阅读

spark 内置的als推荐原理 spark arrestor

SparkR突然有个想法，R只能处理百万级别的数据，如果R能运行在Spark上多好！搜了下发现13年SparkR这个项目就启动了，感谢美帝！1.你肯定得先装个spark吧。看这：Spark本地模式与Spark Standalone伪分布模式2.你肯定得会R吧。看这：R语言入门3.启动SparkR就可以了3.1启动于本地（单机）Spark also provides an experimental&

spark 内置的als推荐原理

scala

json

java

spark

网络安全守护神

4月前

347阅读

什么是spark api 什么是Spark RDD简述

1 Spark的生态Spark Core中的基本概念DAG(Directed Acyclic Graph), 有向无环图。Spark Core提供了有向无环图的分布式计算框架，并提供内存机制来支持多次迭代计算或者数据共享，大大减少了迭代计算之间读取数据的开销。RDD(Resilient Distributed Dataset)，它是一个分布在一组节点中的只读对象集合，这些集合是弹性的，如果数据集一

什么是spark api

spark

SQL

序列化

数据

网线小游侠

4月前

399阅读

Digispark引脚 dimm引脚定义

SO-DIMM硬件电路设计1、内存条基本介绍随着软件程序和硬件平台的不断升级，硬件和软件都对内存性能提出了更高要求，为了提高速度并扩大容量，内存以独立的封装形式出现，因而诞生了---内存条。DDR4内存金手指变的弯曲了?平直的内存金手指插入内存插槽后,受到的摩擦力较大,因此内存存在难以拔出和难以插入的情况,为了解决这个问题, DDR4将内存下部设计为中间稍突出、边缘收矮的形状。在中央的高点和两端的

Digispark引脚

电脑

单片机

stm32

嵌入式硬件

岁月静好呀

4月前

1239阅读

spark是如何将任务拆分 spark任务提交流程

spark 基本处理流程--RDDorg.apache.spark.examples.SparkPi处理分析pi计算原理利用圆与其外接正方形面积之比为pi/4的关系（圆面积：pirr ，正方形面积：2r2r=4r*r），通过产生大量均匀分布的二维点，计算落在单位圆和单位正方形的数量之比再乘以4便得到pi的近似值。样本点越多，计算出的数据将会越接近真识的pi基本处理流程基本流程详细流程一、初始化s

spark是如何将任务拆分

python

spark

java

大数据

温柔一刀

4月前

425阅读

spark现在还用吗 spark支持什么语言

作者：郑锴，花名铁杰，阿里巴巴高级技术专家，Apache Hadoop PMC，Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年，先后专注在安全，存储和计算领域。之前在 Intel，目前转战阿里云上，致力于提供更好用更有弹性的 Hadoop/Spark 大数据平台。Spark 设计上的优秀无容置疑，甫一出道便抢了 Hadoop 的 C 位，在开源大数据的黄金十年里一时风头无两，

spark现在还用吗

大数据

c/c++

scala

Scala

风华正茂的AI

4月前

391阅读

如何安装使用spark

只会用泵不会安装怎么行，水泵安装流程包括基础检验→水泵就位安装→检测与调整→润滑与加油→试运转。今天吉祥三宝就带大家一起来具体了解详细过程。水泵安装基础检验过程第一步：查看施工图纸第二步：施工条件1、水泵安装层已通过结构验收。2、建筑物有关轴线、标高线已画出。3、水泵基础混凝土强度已达到70%以上。第三步：基础检验基础坐标、标高

如何安装使用spark

cgi硬盘安装增强版怎么用

mob64ca140beea5

4月前

549阅读

sparkml LDA算法简介

深受用户喜爱的大数据处理平台 Apache Spark 1.3 于前不久发布，MLlib 作为 Spark 负责机器学习（ML）的核心组件在 1.3 中添加了不少机器学习及数据挖掘的算法：研究主题分布的 latent Dirichle

sparkml LDA算法简介

最小二乘

数据

复杂度

mob64ca140d61c6

4月前

381阅读

spark代码加密 spark 编码

大家好，我是一行Spark代码，我叫小小小蕉，不知道为毛，我爸爸大蕉和我妈妈大大蕉把我生的又瘦又长。长这样。val sssjiao = new SparkContext( new SparkConf().setAppName( "sssjiao").setMaster( "yarn-cluster")).parallelize( Array( ""))

spark代码加密

Spark

架构

初始化

有向无环图

数据探索者

4月前

384阅读

sparksql 时间格式的字符串怎么转换时间戳 spark时间戳转换日期格式

1 使用概述Phoenix是基于HBase的SQL中间件产品，由Salesforce.com公司开源并托管于Github上。对于熟悉关系型数据库的开发人员来说，通过Phoenix可以像使用MySQL等关系型数据库一样使用HBase中的数据表。值得注意的是，它还提供了JDBC驱动包供Java程序访问数据。在实现时，充分利用了HBase协处理器和过滤器等底层2 环境配置首先需要安装好HBase集群，且

大数据

数据库

java

字符串

SQL

mob64ca1415f0ab

4月前

3阅读

cdh spark 集成iceberg 什么是cdh集群

实验背景笔者需要维护线上的hadoop集群环境，考虑在本地搭建一套类似的hadoop集群，便于维护与管理。Cloudera 简介经过搜索发现Cloudera产品很适合笔者当前需求，于是开始研究Cloudera（CDH）的安装与使用，参考：Cloudera 官网：https://www.cloudera.com Cloudera 官方文档： https://www.cloudera.com/docu

cdh spark 集成iceberg

hadoop

cloudera

hadoop集群

管理

mob64ca14122c74

4月前

400阅读

Spark DMP 用户画像 python用户画像可视化

作者：真达、Mika【导读】今天教大家如何用Python写一个电信用户流失预测模型。之前我们用Python写了员工流失预测模型，这次我们试试Python预测电信用户的流失。01、商业理解流失客户是指那些曾经使用过产品或服务，由于对产品失去兴趣等种种原因，不再使用产品或服务的顾客。电信服务公司、互联网服务提供商、保险公司等经常使用客户流失分析和客户流失率作为他们的关键业务指标之一，因为留住一个老客户

Spark DMP 用户画像

python用户画像

字段

数据

建模

编程之翼

4月前

404阅读

spark workers怎么改 spark怎么用

1.1. pvpackage cn.itcast_01_spark import org.apache.spark.SparkConf import org.apache.spark.SparkContext object PVLocal { def main(args: Array[String]) { //创建配置，设置app的name

spark workers怎么改

spark

数据

apache

技术领航员

4月前

392阅读

Java 大视界 -- Java 大数据在智能物流无人配送车路径规划与协同调度中的应用（306）

本文系统解析 Java 如何通过大数据技术实现无人配送车的路径规划与协同调度，涵盖数据采集、机器学习预测、分布式优化及量子计算前沿应用，结合美团、京东等案例提供可落地的工程方案，为智能物流从业者提供技术指南。

Java

智能物流

无人配送车

大数据

路径规划

原创

青云交技术圈

4月前

200阅读

yyds干货盘点

Java 大视界 -- Java 大数据在智能物流无人配送车路径规划与协同调度中的应用（306）

spark的聚类评估器ClusteringEvaluator输出测试集结果java语言聚类分析效果评估

六、聚类评估聚类评估用于对在数据集上进行聚类的可行性和被聚类方法产生的结果的质量进行评估。聚类评估主要包括以下任务。 1.估计聚类趋势 2.确定数据集中的划分簇数 3.测定聚类质量聚类趋势的估计（3）如果D是均匀分布的，H接近0.5。聚类簇数的确定找出正确的簇数依赖于数据集分布的形状和尺度，也依赖于用户要求的聚类分辨率。有许多估计簇数的可能方法。这里简略介绍几种简单但流行和有效的方法。它基于如

机器学习

聚类

python

数据集

方差

智能开发艺术家

4月前

354阅读

spark的聚类评估器ClusteringEvaluator输出测试集结果java语言聚类分析效果评估

PySpark机器学习自然语言处理与推荐系统 python 自然语言处理库

NLTK 大概是最知名的Python自然语言处理工具了，全称"Natural Language Toolkit", 诞生于宾夕法尼亚大学，以研究和教学为目的而生，因此也特别适合入门学习。NLTK虽然主要面向英文，但是它的很多NLP模型或者模块是语言无关的，因此如果某种语言有了初步的Tokenization或者分词，NLTK的很多工具包是可以复用的。关于NLTK，网上已经有了很多介绍资料，当然首推的

python3 自然语言处理

Python

自然语言处理

分词器

mob64ca13fd163c

4月前

350阅读