Spark博客_原创博文第12页

spark shell hudi修改表字段 spark shell操作

实验目的 1、了解Scala语言的基本语法 2、了解Spark Shell数据处理的原理 3、了解Spark 算子的使用 4、了解Spark shell和Mapreduce对数据处理的不同点实验环境 1、Linux Ubuntu 14.04 2、jdk1.7 3、scala-2.10.4 4、hadoop-2.6.0-cdh5.4.5 5、spark-1.6.0-bin-hadoop2.6

hadoop

spark

hive

数据

码农小哥

2月前

375阅读

零基础入门spark

十二月份，天气有时候会很阴沉，一天都见不到太阳。气温也慢慢变冷了，晚上回家还是会感觉到衣服穿少了。阴阴沉沉总会过去的，我还是期待阳春三月。 2019年即将过去了，今晚是平安夜。每到平安夜我都会想起2016年的平安夜，周末，天气阴沉，雾霾天，考研刚结束。这几个词仿佛是下意识的就会从我的脑海中蹦出来，真的会难以释怀。说点好的吧，最近也认识了一些新朋友、新读者，能够得到大家的认可我还是挺开

零基础入门spark

Python

字符串

JSON

mob64ca14005461

2月前

403阅读

spark yarn 地址

SPARK异常解决（长期更新...）异常一 FAILED SelectChannelConnector@0.0.0.0:4040: java.net.BindException: Address already in use: bindjava.net.BindException: Ad

spark yarn 地址

spark

scala

java

笑傲江湖求败

2月前

331阅读

一.窗口函数应用场景：在日常工作中，经常遇到需要分部门排序的问题。比如：排名问题：每部门按照业绩排名；topN问题：找出每部门排名前N的员工。当我们不了解“窗口函数”神奇的存在时，我们使用“晦涩难懂”的自连接SQL解决该问题。而窗口函数的存在为我们解决问题提供了方便。二.窗口函数简介：MySQL从8.0开始支持窗口函数（OLAP函数），该功能在多数商业数据库和部分开源数据库中早已支持，用于快速解决

窗口函数

聚合函数

数据库

数据侠客行

2月前

379阅读

spark read csv 回车会增加一行

上节讲到，scanf() 是从标准输入设备（键盘）读取数据，带有行缓冲区的，这让 scanf() 具有了一些独特的“性格”，例如,可以连续输入、可以输入多余的数据等。反过来，scanf() 也出现了一些奇怪的行为，例如，有时候两份数据之间有空格会读取失败，而有时候两份数据之间又必须有空格。scanf() 的这些特性都是有章可循的，其根源就是行缓冲区。当遇到 scanf() 函数时，程序会先检查输入

字符串

数据

换行符

mob64ca14173efa

2月前

378阅读

spark word count案例代码

1.以本地模式执行Spark程序在IDEA工具在本地开发WordCount单词计数程序的相关步骤1.创建Maven项目，新建资源文件夹创建一个Maven工程项目，命名为spark_chapter02 创建好项目后，在main和test目录下分别创建一个名为scala的文件夹。创建好后的文件夹如上图所示为灰色。选中main目录下的Scala文件夹，右击选中【将目标标记为】——&

#intellij-idea

#spark

#大数据

#hadoop

spark

网络安全侠

2月前

360阅读

spark dag图和tez

Spark 运行架构如下图：各个RDD之间存在着依赖关系，这些依赖关系形成有向无环图DAG，DAGScheduler对这些依赖关系形成的DAG，进行Stage划分，划分的规则很简单，从后往前回溯，遇到窄依赖加入本stage，遇见宽依赖进行Stage切分。完成了Stage的划分,DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。Task

spark dag图和tez

大数据

入栈

依赖关系

sed

AI大梦想家

2月前

418阅读

spark安装教程linux spark的安装与配置

１、安装Spark1.1、配置Ｊava环境：<1>下载Ｊava SE网址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html选择合适的压缩包下载<２>配置Ｊａｖａ环境打开ｐｒｏｆｉｌｅ文件：　~$ sudo vim /etc/profile在文件结尾加上Ｊａ

spark安装教程linux

spark

SPARK

集群管理

新新人类

2月前

376阅读

spark在centos的作用 spark运行在什么平台上

Spark2009年由马泰·扎哈里亚在加州伯克利分校的AMPLab实现开发的子项目,经过开源捐给了Apache基金会,最后成为了我们熟悉的Apache Spark,Spark式式由Scala语言实现的专门为大规模数据处理而设计的快速通用的计算引擎,经过多年的发展势头迅猛,当然,Flink的出现,也将打破Spark在流式计算的一些短板.后续会更新FLink相关的学习记录.Spark生态系统已经

spark在centos的作用

spark

hadoop

数据

风华绝代的java

2月前

385阅读

kettle 提交spark

下载kettle包访问https://community.hitachivantara.com/docs/DOC-1009855下载kettle包选择想要的版本下载zip包解压kettle包 unzip pdi-ce-7.1.0.0-12.zip直接进入解压后的目录之后，运行spoon.sh cd data-integration/./spoon.sh

kettle 提交spark

apache

bundle

ide

mob64ca1419e0cc

2月前

391阅读

sparksql执行update语句 sparksql执行sql脚本

sparkSQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的，开发人员只需要写一句SQL语句或者调用API，就能生成（翻译成）对应的SparkJob代码并去执行，开发变得更简洁一. APISpark SQL的API方案：3种SQLthe DataFrames APIthe Datasets API.但会使用同一个执行引擎the same execution engine

sparksql执行update语句

sql

json

java

mob64ca141139a2

2月前

432阅读

sparksql 根据sql分析使用表和输出表 spark sql数据分析

去年网上曾放出个2000W的开房记录的数据库，不知真假。最近在学习Spark，所以特意从网上找来数据测试一下，这是一个绝佳的大数据素材。如果数据涉及到个人隐私，请尽快删除，本站不提供此类数据。你可以写个随机程序生成2000W的测试数据，以CSV格式。Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于mapre

spark

sql

SQL

mob64ca1403c772

2月前

329阅读

Java 大视界 -- Java 大数据在智能交通智能停车诱导与车位共享中的应用（341）

本文结合 19 城实战，详解 Java 大数据在智能停车全场景的应用。含寒地设备优化、应急共享机制等技术方案，实现寻位时间缩 78%，车位利用率提 42%，附可复用代码与民生案例。

Java

大数据

智能停车

极端气候适配

车位共享

原创

青云交技术圈

2月前

82阅读

1点赞

yyds干货盘点

Java 大视界 -- Java 大数据在智能交通智能停车诱导与车位共享中的应用（341）

使用 Apache DolphinScheduler 构建和部署大数据平台，将任务提交至 AWS 的实践经验

从最初的2.0.3版本开始至今，我们与社区一同成长，今天给大家分享的技术思路是基于3.1.1版本进行的二次开发，增加了一些社区版本中未包含的新功能。

AWS

Apache

Docker

EKS

海豚调度

原创

海豚调度平台

2月前

119阅读

使用 Apache DolphinScheduler 构建和部署大数据平台，将任务提交至 AWS 的实践经验

日均处理 PB 级数据，基于 DolphinScheduler 的离线数据治理平台实现精准血缘追踪

本文介绍了基于 DolphinScheduler 的离线数据治理平台，解决了任务依赖黑洞和扩展性瓶颈问题。通过 YAML 动态编译和血缘自动捕获，实现了高效的任务依赖管理和数据追踪。平台使用 Neo4j 图数据库进行血缘存储，支持秒级影响分析和根因定位。此外，结合自研高性能导入工具，大幅提升数据传输效率。

数据

YAML

动态编译

数据治理

海豚调度

原创

海豚调度平台

2月前

97阅读

日均处理 PB 级数据，基于 DolphinScheduler 的离线数据治理平台实现精准血缘追踪

Apache DolphinScheduler DataX 数据集成：新手入门全攻略

在调研了 DolphinScheduler 之后，在项目上实际使用了一段时间，有了一些使用Datax做数据集成的实际经验，分享如下。

数据集成

环境配置

海豚调度

DataX

开源

原创

海豚调度平台

2月前

169阅读

Apache DolphinScheduler DataX 数据集成：新手入门全攻略

Aggregator Spark 如何注册

基本上现在的每一款app都有登录功能。那也就少不了注册，找回密码等操作。今天要说的就是初学者可以使用parse做为后台的服务器来进行一系列的操作，等以后工作的时候可以用公司的服务器。注册用户BmobUser *bUser = [[BmobUser alloc] init]; [bUser setUserName:@"小明"];//必填 [bUser setPassword:@"123456"];/

重置密码

邮箱验证

注册登录

davisl

2月前

398阅读

国外spark官网

一、Hadoop 平台安装1.1.查看服务器的 IP 地址并配置创建VMware虚拟机（实验环境）这里需要三台，分别是master、slave1、slave2操作系统 centos 7 双核cpu 8G 内存 100G 硬盘首先配置三台虚拟机在同一网段在相同网段即可1.2.设置服务器的主机名称使用命令修改主机名称[root@localhost ~]#

国外spark官网

spark

大数据

分布式

hadoop

jimoshalengzhou

2月前

438阅读

spark full_outer join 使用

下载spark job server（sjs）因为下载的是与cdh版本匹配的sjs源码，所以需要在以下连接下载相关版本。 https://github.com/bjoernlohrmann/spark-jobserver 这次安装使用 yarn模式运行的sjs，具体的安装参照github英文版，参考如下 https://github.com/spark-jobserver/spark-jobs

#spark

#jobserver

#yarn

#CDH

spark

风华绝代的java

2月前

350阅读

new SparkMD5使用 spark md5函数

今年五月份Deno发布了1.0版本，作为一个经常用Node来构建项目的前端，对Deno官网描述的那几点优点其实并不太关心(Deno优点)。主要还是想知道Deno的性能怎么样，用Deno能不能大幅减少前端构建项目的耗时。对网络上Deno能不能替代Node的讨论也比较感兴趣，于是便用Deno跟Node去执行一些常用的方法，比较它们的性能，研究下Deno是否可以替代Node。Deno简介Deno是一个J

new SparkMD5使用

md5对比工具

JSON

自定义

API

风华绝代的java

2月前

389阅读

10余年金融 AI 老兵：从代码到人心，那些让菜场阿姨也说好的实战秘籍（附完整代码 + 避坑指南）

本文结合 10余年金融 AI 实战经验，详解智能风控、投顾、保险理赔等场景的落地技术，附完整可运行代码、真实用户案例及 18 个避坑点，强调技术需兼顾精度与人文温度，让金融服务更普惠。

权重

数据

金融 AI

人工智能

智能风控

原创

青云交技术圈

2月前

55阅读

yyds干货盘点

10余年金融 AI 老兵：从代码到人心，那些让菜场阿姨也说好的实战秘籍（附完整代码 + 避坑指南）

spark邮箱无法gmail

在Gmail邮箱界面最下方，有一行小字，显示为：“Gmail 视图：带有聊天功能的标准视图 | 不带聊天功能的标准视图 | 基本 HTML 了解更多信息”，选择 “不带聊天功能的标准视图”，就OK了。

spark邮箱无法gmail

无法访问

解决方法

管理工具

mob64ca13f8eecb

2月前

404阅读

spark对账

match case的模式匹配 scala> def bigData(data: String){ | data match { | case "Spark" => println("Spark") | case "Hadoop" => println("Hadoop") | case _ => println("Other")

spark对账

scala

Hadoop

子类

JAVA小侠影

2月前

400阅读

spark在线编辑 spark 官方文档

SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动创建 SparkDataFrames 从本地的 data frames 来创建 SparkDataFrames 从 Data Sources（数据源）创建 SparkDataFrame 从 Hive tables 来创建 SparkDataFrame S

spark在线编辑

Apache Spark

2.2.0

中文文档

SparkR R on Spark

云端小悟空

2月前

427阅读

faild to load spark任务提交时

问题DevTools failed to load SourceMap: Could not load content for ***.js.map: HTTP error: status code 404, net::ERR_UNKNOWN_URL_SCHEME项目开发完之后，在用Chrome浏览器调试的时候发现控制台有两条警告，如图所示：分析这里抛出DevTools failed to loa

#javascript

#http

#chrome

Chrome

正常运行

mob64ca140a8e67

2月前

380阅读

Java 大视界 -- 基于 Java 的大数据分布式计算在生物信息学蛋白质 - 蛋白质相互作用预测中的应用（340）

本文结合 18 个国际生物信息项目，详解基于 Java 的大数据分布式计算在蛋白质 - 蛋白质相互作用预测中的应用。通过多源数据处理、融合模型预测及可视化工具，将效率提升 120 倍，准确率达 89%，助力药物研发周期缩短 14 个月。

Java

数据

分布式计算

生物信息学

大数据

原创

青云交技术圈

2月前

60阅读

yyds干货盘点

Java 大视界 -- 基于 Java 的大数据分布式计算在生物信息学蛋白质 - 蛋白质相互作用预测中的应用（340）

通过Socket传送Syslog到Spark具体步骤

关于对 Socket 的认识，大致分为下面几个主题，Socket 是什么，Socket 是如何创建的，Socket 是如何连接并收发数据的，Socket 套接字的删除等。Socket 是什么以及创建过程一个数据包经由应用程序产生，进入到协议栈中进行各种报文头的包装，然后操作系统调用网卡驱动程序指挥硬件，把数据发送到对端主机。整个过程的大体的图示如下。我们大家知道，协议栈其实是位于操作系统中的一些

#学习

#网络

#tcp/ip

数据

服务器

mob64ca1419a401

2月前

370阅读

2统计会员分布的年龄段spark

文章目录描述统计学分类数据描述统计数值数据描述统计概率描述统计学当拿到一份数据时，首先应该怎么做？数值数据可以计算，分类数据表示分类，例如男女等。二者可以相互转换，例如年龄的数值数据可以转换为中年、青年等分类数据。分类数据描述统计频次统计：单纯对各分类计数就可频数百分比：单纯对各分类计数就可数值数据描述统计统计度量和图形统计度量：平均数中位数：平均数大于中位数时，说明数据不均衡，较大的数据

2统计会员分布的年龄段spark

数据分析

数据

数值数据

方差

风华绝代的java

2月前

403阅读

Spark 设置CPU核数

本課主題大数据性能调优的本质Spark 性能调优要点分析Spark 资源使用原理流程Spark 资源调优最佳实战Spark 更高性能的算子引言我们谈大数据性能调优，到底在谈什么，它的本质是什么，以及 Spark 在性能调优部份的要点，这两点让在进入性能调优之前都是一个至关重要的问题，它的本质限制了我们调优到底要达到一个什么样的目标或者说我们是从什么本源上进行调优。希望这篇文章能为读者带

Spark 设置CPU核数

调优

性能调优

数据

技术极客之光

2月前

366阅读