1、概念HDFS是Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。2、优点适合大数据处理:能够处理百万规模以上的文件数量( GB、TB、PB级数
转载 2023-08-18 19:06:05
63阅读
## 实现Java Spark的Hadoop File ### 流程概述 - 首先,我们需要创建一个SparkContext对象,用于与Spark集群进行通信和交互。 - 然后,我们需要使用SparkContext对象的`hadoopFile`方法来读取Hadoop文件系统中的文件。 - 最后,我们可以对读取的数据进行进一步的处理和操作。 下面是实现Java Spark的Hadoop Fil
原创 2024-02-09 04:02:05
92阅读
文章目录1.HDFS1.1 HDFS优点1.2 HDFS的关键元素1.2.1 block:1.2.2 namenode 和 datanode2. Map-Reduce2.1 MapReduce其处理过程主要分为两个步骤3. Hadoop经典案例4. Hadoop的局限性与不足5. 而spark相比hadoop有着更多的优点5.1 RDD的设计与运行原理5.2 RDD概念5.3 RDD特性5.4
转载 2023-07-12 11:24:37
40阅读
基于文件的数据结构 两种文件格式: 1、SequenceFile 2、MapFileSequenceFile1、SequenceFile文件是Hadoop用来存储二进制形式的<key,value>对而设计的一种平面文件(Flat File)。2、能够把SequenceFile当做一个容器,把全部文件打包到SequenceFile类中能够高效的对小文件进行存储和处理。3、Seque
转载 2023-05-24 14:13:04
143阅读
前一阵一直在使用hadoop集群,也积累了一些使用经验,本文分享一下hadoop的文件操作hadoop fs -touch [filepath] 在指定地方创建一个文件hadoop fs -get [filepath] [localpath] 将集群上的文件下载到本地hadoop fs -put [localfile] [filepath] 将本地文件上传到集群hadoop fs -cat [fi
转载 2012-01-14 20:41:00
89阅读
         SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文件的位置信息构建索引。不过,这类解决方案还涉及到Hadoop的另一种
转载 2023-10-23 14:11:50
44阅读
      1.对于某些应用而言,需要特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理,将每个二进制数据的大对象融入自己的文件中并不能实现很高的可扩展性,针对上述情况,Hadoop开发了一组更高层次的容器SequenceFile。      2. 考虑日志文件,其中每一条日志记录是一行文本。如果想记录二进制
简介: Hadoop Distributed File System (HDFS) — Apache Hadoop 项目的一个子项目 — 是一个高度容错的分布式文件系统,设计用于在低成本硬件上运行。HDFS 提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。本文探索 HDFS 的主要特性,并提供一个高级 HDFS 架构视图。 HDFS 是一个 Apache Software
转载 2023-09-14 13:50:47
49阅读
Scala学习资料
原创 2021-07-27 16:30:02
10000+阅读
scala for
原创 2014-05-16 15:13:51
1692阅读
Scala的语法Scala概述概述编程范式基本输出类型和变量输出输入控制结构数据结构Scala概述概述Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(JVM虚拟机),并兼容现有的Java程序Scala的特点优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。速度快:Scala语言表达能力强,一行代码抵得上Java多行,开发速度快;Scala是静态编译的,所以和JRub
原创 2022-03-23 10:15:43
620阅读
1.前言最近在参加Hadoop和Spark培训,需要使用Scala,自学了一下作为入门,这里作一个记录。2.下载1) 在scala官网下载,地址: http://www.scala-lang.org/2) 下载IDE,地址: http://scala-ide.org/3)配置环境变量SCALA_HOME:C:\Program Files (x86)\scalaPath:C:\P
转载 2017-03-21 19:52:00
109阅读
var and val简单来说,val声明的变量可以重新修改其引用,val则不行,见下面的例子: 1 def max(x: Int, y: Int): Int = { 2 if(x > y) x else y 3 } 4 5 def max(x: Int, y: Int): Int = i...
原创 2021-07-21 14:13:26
438阅读
Array 1 val greetStrings = new Array[String](3) 2 greetStrings(0) = "Hello" 3 greetStrings(1) = "," 4 greetStrings(2) = "world!\n" 5 6 for(i "One", ...
原创 2021-07-21 14:28:51
405阅读
快速了解Scala技术栈 我无可救药地成为了Scala的超级粉丝。在我使用Scala开发项目以及编写框架后,它就仿佛凝聚成为一个巨大的黑洞,吸引力使我不得不飞向它,以至于开始背离Java。固然Java 8为Java阵营增添了一丝亮色,却是望眼欲穿,千呼万唤始出来。而Scala程序员,却早就在享受la
原创 2021-07-23 11:19:22
562阅读
问题背景公司目前有两套Spark集群和一套Hadoop集群用来做 数据相关的存储和计算。Hadoop的版本是2.7,Spark两套集群,一个是2.1.0版本,一个是 2.4.3版本。但是两个Spark集群安装的Python版本都是一样的,都是3.6.8之前对大数据Spark了解不多,接手之后协助开发在提交 Python Spark任务的时候遇到问题。最终定位是因为Python版本的问题导致的。关于
转载 2023-08-01 15:58:44
35阅读
apply apply 方法类似于java的构造函数,创建对象的时候自动调用,但是不需要写new关键字 ...
转载 2021-04-25 09:09:00
270阅读
2评论
ScalaMicrosoft Windows [版本 10.0.16299.431](c) 2017 Microsoft Corporation。保留所有权利。C:\Users\enmonster>scalaWelcome to Scala 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_77).Type in exp...
原创 2021-07-08 14:23:14
290阅读
Scala(Scalable Language,可扩展的语言)是一种现代、强大的多范式编程语言,它巧妙地融合了面向对象编程(OOP) 和函数式编程(FP) 的核心特性。它运行在 Java 虚拟机(JVM)上,与 Java 有极佳的互操作性。 以下是 Scala 的主要特点和简介: 核心目标: 表达性
原创 3月前
20阅读
scala 环境
原创 2014-05-15 23:35:37
2517阅读
  • 1
  • 2
  • 3
  • 4
  • 5