文章目录概述安装Java VS Scalaval 和 var基本数据类型lazy在Scala中的应用开发工具IDEAMaven概述https://www.scala-lang.org/Scala combines object-oriented and functional programming in one concise, high-level language. Scala’s static types help avoid bugs in complex applications, and
原创 2022-02-04 16:18:58
178阅读
大数据爬虫架构进阶目录的描述 在当前数据驱动的时代,大数据爬虫技术的需求越来越大,尤其是在信息获取、数据分析等领域。因此,构建一个高效、可扩展的大数据爬虫架构成为了技术开发者的重要任务。本文将通过一系列的结构解析来细致探讨如何设计并优化大数据爬虫架构,从背景到技术原理、架构解析、源码分析、性能优化,最后展望未来。 **背景描述** 在过去的几年中,大数据爬虫技术经历了快速的发展。以下是这一历
原创 6月前
14阅读
大数据进阶之路——Scala入门
原创 2021-09-22 11:19:23
317阅读
在Spark中,支持4种运行模式:1)Local:开发时使用2)Standalone: 是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署Spark环境3)YARN:建议大家在生产上使用该模式,统一使用YARN进行整个集群作业(MR、Spark)的资源调度4
原创 2021-10-11 13:31:30
263阅读
文章目录手写 WordCountRDD、DAG、 Stage、 Task 、 JobSpark 作业提交流程Spark 的 Local 和 Standalone宽依赖、窄依赖Spark SQL比 Hive 快在哪打包的注意事项手写 WordCount使用flatMap、reduceByKey 来计算//sc是SparkContext对象,
原创 2021-10-11 13:32:45
180阅读
文章目录手写 WordCountRDD、DAG、 Stage、 Task 、
原创 2022-02-04 16:11:20
79阅读
在Spark中,支持4种运行模式:1)Local:开发时使用2)Standalone:
原创 2022-02-04 16:13:10
82阅读
文章目录高级函数字符串匿名函数Currying高阶函数高级函数字符串插值 val s ="hello" val name="jacksun" println(s+name) println(s+":"+name) println(s"hello:$name")多行字符串 //多行 var d = """ |1 |2 |3 |4 |5 |5 |6 """.str
原创 2022-02-04 16:18:56
55阅读
shell脚本赋权chmod 777 file.sh1、for循环打印数组arr1=(20 21 23 24 25)arr2=(a b c d e f g)for i in ${arr1[*]};do echo -e $i "\c"doneechofor i in ${arr2[@]};do echo -e $i "\c"doneecho# -e:...
原创 2021-08-26 09:26:55
281阅读
shell脚本赋权chmod 777 file.sh1、for循环打印数组arr1=(20 21 23 24 25)arr2=(a b c d e f g)for i in ${arr1[*]};do echo -e $i "\c"doneechofor i in ${arr2[@]};do echo -e $i "\c"doneecho# -e:...
原创 2022-04-22 13:57:19
231阅读
文章目录高级函数字符串匿名函数Currying高阶函数高级函数字符串插值 val s ="hello" val name="jacksun" println(s+name) println(s+":"+name) println(s"hello:$
原创 2021-09-28 15:17:15
469阅读
12点赞
1评论
头歌大数据存储HBASE进阶 在当今数据驱动的时代,掌握高效的大数据存储技术显得尤为重要。HBase作为一个开源的分布式、可扩展的列式数据库,成为了许多大数据解决方案中的重要组成部分。随着数据量的飞速增长,我们需要更深入地理解HBase的进阶操作和优化方案。 > **权威定义**:HBase是一个基于Google Bigtable设计的开源框架,具有高吞吐量和低延迟的特性,适用于海量数据的随机
申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的
原创 2022-01-04 09:46:51
383阅读
数据字典是ClickHouse提供一种非常简单、实用的存储媒介,他以键值和属性映射的形式定义数据。字典中的数据会主动或者被动加载到内存并支持动态更新。由于字典数据常驻内存的特性,所以非常适合保存常量或经常使用的维度表数据,以避免不必要的JOIN查询。数据字典分为内置与扩展两种形式,内置字典是
原创 2022-10-16 01:17:01
267阅读
文章目录函数方法定义默认参数命名参数可变参数条件语句循环语句面向对象概述类的定义和使用抽象类伴生类和伴生对象case和trait函数方法定义 def 方法名(参数: 参数类型): 返回值类型 = { //方法体 //最后一行作为返回值(不需要使用return) }
原创 2021-09-26 11:09:41
251阅读
文章目录Spark安装编译失败环境搭建Standalone本地IDEHiveContextAPPSparkSessinonSpark ShellSpark Sqlthriftserver/beeline的使用jdbcMapReduce的局限性:1)代码繁琐;2)只能够支持map和reduce方法;3)执行效率低下;4)不适合迭代多次、交互式、流式的处理;框架多样化:1)批处理(离线):
原创 2021-10-08 17:34:54
383阅读
文章目录Spark安装编译失败环境搭建Standalone本地
原创 2022-02-04 16:13:32
433阅读
文章目录大数据概述大数据组成HDFS概述环境搭建HDFS命令YARN架构详解YARN执行流程YARN环境搭建配置虚拟机大数据概述定义和特征海量的计算大量的用户全体数据分析数据管理4V特征1.Volume(大量) 
原创 2021-10-08 14:27:34
653阅读
12点赞
3评论
文章目录基本方案数据处理流程数据清洗二次清洗视频访问按
原创 2021-10-08 18:18:31
424阅读
MergeTree系列表引擎包含:MergeTree、ReplacingMergeTree、SummingMergeTree(汇总求和功能)、AggregatingMergeTree(聚合功能)、CollapsingMergeTree(折叠删除功能
原创 2022-09-21 16:53:03
996阅读
  • 1
  • 2
  • 3
  • 4
  • 5