大数据进阶_51CTO博客

大数据进阶之路——Scala入门

文章目录概述安装Java VS Scalaval 和 var基本数据类型lazy在Scala中的应用开发工具IDEAMaven概述https://www.scala-lang.org/Scala combines object-oriented and functional programming in one concise, high-level language. Scala’s static types help avoid bugs in complex applications, and

scala

big data

java

maven

spark

原创

孙中明

2022-02-04 16:18:58

178阅读

大数据爬虫架构进阶目录

大数据爬虫架构进阶目录的描述在当前数据驱动的时代，大数据爬虫技术的需求越来越大，尤其是在信息获取、数据分析等领域。因此，构建一个高效、可扩展的大数据爬虫架构成为了技术开发者的重要任务。本文将通过一系列的结构解析来细致探讨如何设计并优化大数据爬虫架构，从背景到技术原理、架构解析、源码分析、性能优化，最后展望未来。 **背景描述** 在过去的几年中，大数据爬虫技术经历了快速的发展。以下是这一历

大数据

ci

Parse

原创

mob64ca12d12b68

6月前

14阅读

大数据进阶之路——Scala入门

大数据进阶之路——Scala入门

scala

big data

java

maven

spark

原创

孙中明

2021-09-22 11:19:23

317阅读

大数据进阶之路——Spark SQL补充

在Spark中，支持4种运行模式：1）Local：开发时使用2）Standalone：是Spark自带的，如果一个集群是Standalone的话，那么就需要在多台机器上同时部署Spark环境3）YARN：建议大家在生产上使用该模式，统一使用YARN进行整个集群作业(MR、Spark)的资源调度4

spark

sql

scala

hadoop

jar

原创

孙中明

2021-10-11 13:31:30

263阅读

大数据进阶之路——Spark SQL小结

文章目录手写 WordCountRDD、DAG、 Stage、 Task 、 JobSpark 作业提交流程Spark 的 Local 和 Standalone宽依赖、窄依赖Spark SQL比 Hive 快在哪打包的注意事项手写 WordCount使用flatMap、reduceByKey 来计算//sc是SparkContext对象，

spark

sql

scala

hadoop

jar

原创

孙中明

2021-10-11 13:32:45

180阅读

大数据进阶之路——Spark SQL小结

文章目录手写 WordCountRDD、DAG、 Stage、 Task 、

spark

sql

scala

hadoop

jar

原创

孙中明

2022-02-04 16:11:20

79阅读

大数据进阶之路——Spark SQL补充

在Spark中，支持4种运行模式：1）Local：开发时使用2）Standalone：

spark

sql

scala

hadoop

jar

原创

孙中明

2022-02-04 16:13:10

82阅读

大数据进阶之路——Scala 高级函数

文章目录高级函数字符串匿名函数Currying高阶函数高级函数字符串插值 val s ="hello" val name="jacksun" println(s+name) println(s+":"+name) println(s"hello:$name")多行字符串 //多行 var d = """ |1 |2 |3 |4 |5 |5 |6 """.str

scala

匿名函数

高阶函数

其他

原创

孙中明

2022-02-04 16:18:56

55阅读

大数据进阶之 shell 脚本开发

shell脚本赋权chmod 777 file.sh1、for循环打印数组arr1=(20 21 23 24 25)arr2=(a b c d e f g)for i in ${arr1[*]};do echo -e $i "\c"doneechofor i in ${arr2[@]};do echo -e $i "\c"doneecho# -e：...

shell

linux

for循环

bash

遍历数组

原创

星辰大数据

2021-08-26 09:26:55

281阅读

大数据进阶之 shell 脚本开发

shell脚本赋权chmod 777 file.sh1、for循环打印数组arr1=(20 21 23 24 25)arr2=(a b c d e f g)for i in ${arr1[*]};do echo -e $i "\c"doneechofor i in ${arr2[@]};do echo -e $i "\c"doneecho# -e：...

shell

linux

for循环

bash

遍历数组

原创

星辰大数据

2022-04-22 13:57:19

231阅读

大数据进阶之路——Scala 高级函数

文章目录高级函数字符串匿名函数Currying高阶函数高级函数字符串插值 val s ="hello" val name="jacksun" println(s+name) println(s+":"+name) println(s"hello:$

scala

匿名函数

高阶函数

字符串

显式

原创

孙中明

2021-09-28 15:17:15

469阅读

12点赞

1评论

头歌大数据存储HBASE进阶

头歌大数据存储HBASE进阶在当今数据驱动的时代，掌握高效的大数据存储技术显得尤为重要。HBase作为一个开源的分布式、可扩展的列式数据库，成为了许多大数据解决方案中的重要组成部分。随着数据量的飞速增长，我们需要更深入地理解HBase的进阶操作和优化方案。 > **权威定义**：HBase是一个基于Google Bigtable设计的开源框架，具有高吞吐量和低延迟的特性，适用于海量数据的随机

大数据存储

数据存储

压力测试

原创

mob64ca12f8da8d

6月前

35阅读

大数据工程师进阶学习

申明：本文旨在为普通程序员（Java程序员最佳）提供一个入门级别的大数据技术学习路径，不适用于大数据工程师的

hive

mapreduce

spark

原创

互联网后端架构

2022-01-04 09:46:51

383阅读

大数据ClickHouse进阶（十六）：数据字典创建

数据字典是ClickHouse提供一种非常简单、实用的存储媒介，他以键值和属性映射的形式定义数据。字典中的数据会主动或者被动加载到内存并支持动态更新。由于字典数据常驻内存的特性，所以非常适合保存常量或经常使用的维度表数据，以避免不必要的JOIN查询。数据字典分为内置与扩展两种形式，内置字典是

clickhouse

数据

数据字典

用户名

原创

Lansonli

2022-10-16 01:17:01

267阅读

大数据进阶之路——Scala 函数和对象

文章目录函数方法定义默认参数命名参数可变参数条件语句循环语句面向对象概述类的定义和使用抽象类伴生类和伴生对象case和trait函数方法定义 def 方法名(参数: 参数类型): 返回值类型 = { //方法体 //最后一行作为返回值(不需要使用return) }

scala

java

ide

默认参数

spark

原创

孙中明

2021-09-26 11:09:41

251阅读

大数据进阶之路——Spark SQL基本配置

文章目录Spark安装编译失败环境搭建Standalone本地IDEHiveContextAPPSparkSessinonSpark ShellSpark Sqlthriftserver/beeline的使用jdbcMapReduce的局限性：1）代码繁琐；2）只能够支持map和reduce方法；3）执行效率低下；4）不适合迭代多次、交互式、流式的处理；框架多样化：1）批处理（离线）：

spark

sql

big data

hadoop

hive

原创

孙中明

2021-10-08 17:34:54

383阅读

大数据进阶之路——Spark SQL基本配置

文章目录Spark安装编译失败环境搭建Standalone本地

spark

sql

big data

hadoop

hive

原创

孙中明

2022-02-04 16:13:32

433阅读

大数据进阶之路——Spark SQL环境搭建

文章目录大数据概述大数据组成HDFS概述环境搭建HDFS命令YARN架构详解YARN执行流程YARN环境搭建配置虚拟机大数据概述定义和特征海量的计算大量的用户全体数据分析数据管理4V特征1.Volume（大量）

spark

sql

big data

hadoop

hive

原创

孙中明

2021-10-08 14:27:34

653阅读

12点赞

3评论

大数据进阶之路——Spark SQL日志分析

文章目录基本方案数据处理流程数据清洗二次清洗视频访问按

spark

sql

big data

ide

ooc

原创

孙中明

2021-10-08 18:18:31

424阅读

大数据ClickHouse进阶（二）：MergeTree表引擎

MergeTree系列表引擎包含：MergeTree、ReplacingMergeTree、SummingMergeTree（汇总求和功能）、AggregatingMergeTree（聚合功能）、CollapsingMergeTree（折叠删除功能

clickhouse

MergeTree表引擎

大数据

数据

字段

原创

Lansonli

2022-09-21 16:53:03

996阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

大数据进阶

大数据进阶之路——Scala入门

大数据爬虫架构进阶目录

大数据进阶之路——Scala入门

大数据进阶之路——Spark SQL补充

大数据进阶之路——Spark SQL小结

大数据进阶之路——Spark SQL小结

大数据进阶之路——Spark SQL补充

大数据进阶之路——Scala 高级函数

大数据进阶之 shell 脚本开发

大数据进阶之 shell 脚本开发

大数据进阶之路——Scala 高级函数

头歌大数据存储HBASE进阶

大数据工程师进阶学习

大数据ClickHouse进阶（十六）：数据字典创建

大数据进阶之路——Scala 函数和对象

大数据进阶之路——Spark SQL基本配置

大数据进阶之路——Spark SQL基本配置

大数据进阶之路——Spark SQL环境搭建

大数据进阶之路——Spark SQL日志分析

大数据ClickHouse进阶（二）：MergeTree表引擎

大数据编程语言 Scala 进阶篇

大数据进阶之路——Scala 函数和对象

大数据ClickHouse进阶（二十二）：ClickHouse优化

大数据Flink进阶（十三）：Flink 任务提交模式

大数据方向学习进阶知识图谱

大数据进阶之路——Scala 集合和模式匹配

大数据ClickHouse进阶（十三）：ClickHouse的GROUP BY 子句

大数据Flink进阶（十五）：Flink On Yarn任务提交

进阶大数据架构师学习指导路线