hadoop maven编译

转载

mob64ca13f96cda 2024-09-17 22:57:36

文章标签 hadoop maven编译 Hadoop 数据大数据 文章分类 Hadoop 大数据

1、请简单介绍maven？

自动化构建工具，专注服务于java平台的项目构建和依赖管理

2、请简述Maven核心概念之POM是什么意思？

Project object model 项目对象模型

3、依靠什么可以在Maven仓库中确定一个唯一的Maven工程？

依靠Maven坐标，其表示为groupld+artifactld+version

4、请简述几种Maven仓库？

本地仓库

远程仓库：私服，中央仓库，中央仓库的镜像

5、请简述几种Maven仓库的主要区别？

本地仓库：本机上创建的Maven仓库

远程仓库：私服：公司或局域网的Maven仓库

中央仓库：最具有权威的，全世界通用的Maven仓库

中央仓库的镜像：是各大洲或者有能力的企业，学校所搭建，维护的Maven仓库，相当于重要仓库的拷贝

6、请简述Maven中依赖的范围？

Compile：默认的依赖范围，主程序main可以访问，测试程序test

test：测试依赖范围

Provided：已依赖的范围，主程序和测试程序都可以访问，但不参

runtime：运行时依赖

System:系统依赖范围

7、请简述配置镜像仓库的原因？

镜像仓库可以为中央仓库分流，减轻中央仓库的负担，同时也可以更快的响应用户的请求，提高用户访问速度；

镜像仓库是中央仓库的一个备份，他设置在各大洲，就是为了提高用户的下载速度，并且各大厂商可以自己设置自己的镜像仓库

8、Maven对java程序进行自动化构建的原因是？

约定>配置>编码。能用配置解决的问题就不编码，能基于约定的就不进行配置。而Maven正是因为指定了特定文件保存的目录才能够对我们的java工程进行自动化构建。

Maven存在约定好的目录结构，特定的目录存放的是特定的文件，

9、请简单介绍使用Maven的好处及原因？

好处：

Maven可以根据配置文件的参数自动的导入所需要的的依赖，快

原因：

Maven可以自动导入第三方jar包及其依赖的jar包，

自动处理jar包之间的依赖关系、自动获取第三方jar包

10、请介绍Maven中坐标概念

Groupld：公司或组织的域名倒序+当前项目名称

Artifactld：当前项目的模块名称

Version：当前模块的版本

11、使用哪三个向量在Maven仓库中唯一确定一个Maven工程？

Groupld（组织域名）、artifactld（包名）、version（版本号）

12、Maven中坐标是什么？

通过配置文件进行源选择，以配置文件中的参数与其组成一个绝对路径，从路径上进行导入依赖

--------------------------------------------------------------------------

13、大数据的有哪些特点？

Valume：大量

Velocity：高速

Variety：多样

Value：低价值密度

14、什么是大数据？

指无法在一定的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理的模式才具有更强大的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

15、大数据主要是用来解决什么的？

主要解决，海量数据的存储和海量数据的分析计算问题

16、What is Hadoop？

分布式系统基础框架

17、Hadoop有哪些优势？

高可靠性：Hadoop底层维护多个数据副本，即使hadoop某个计算元素或存储出现故障，也不会导致数据的丢失

高扩展性：在集群分配任务数据，可方便扩展数以千计的节点

高效性：在MapReduce的思想下，Hadoop是并行工作的，以加

高容错性：能够自动将失败的任务重新分配

18、sudo命令用处？

可为Hadoop用户增加管理员权限，方便不熟，避免比较棘手的

19、使用sudo时有几点需要注意的？

尊重别人的隐私

输入前要考虑后果和风险

权限越大，责任越大

20、Hadoop2个组件 HDFS\YARN,一个思想（框架）MapReduce，它

HDFS：

NameNode(nn)存储文件的元数据

DataNode(dn) 在本地系统存储文件块数据

Secondary Namenode(2nn)每隔一段时间对NameNode元数

YARN：RescourceManager 资源管理器

NodeManager 节点管理器

ApplicationMaster 应用程序管理器

Container 容器

MapReduce：MapReduce将计算过程分为两个阶段，map和reduce

Map阶段并行处理输入数据

Reduce阶段对map结果进行汇总

21、中大型企业，大数据部门都由什么组成？

平台组，数据仓库组，实时组，数据挖掘组，报表开发组

22、Hadoop几种运行模式？

本地模式、伪分布模式、完全分布模式

23、SCP命令使用

scp：secure copy 安全拷贝

Scp可以实现服务器与服务器之间的数据拷贝

24、rsync命令使用

远程同步工具

主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

25、rsync\SCP不同

Rsync做文件的复制要比scp的速度快

Rsync只对差异文件做更新

Scp是把所有文件都复制过去

26、DataNode和NameNode进程同时只能工作一个，排查方案。

原因：

NameNode在format初始化后会生成claserld（集群id），在没有关闭进程或删除原有DataNode信息的情况下，再次格式化 namenode，生成不同的clusterld不同，所以导致两个不能对应上。

解决方案：jps查看namenode和DataNode，先将两个关闭

删除DataNode生成的data目录和logs目录，所有相关的

执行格式化命令

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java 如何防止接口同一时间执行

下一篇：jupyter打开new中没有python

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hadoop maven编译

hadoop maven编译

51CTO博客