1、请简单介绍maven?

自动化构建工具,专注服务于java平台的项目构建和依赖管理

2、请简述Maven核心概念之POM是什么意思?

Project object model 项目对象模型

3、依靠什么可以在Maven仓库中确定一个唯一的Maven工程?

依靠Maven坐标,其表示为groupld+artifactld+version

4、请简述几种Maven仓库?

本地仓库

远程仓库:私服,中央仓库,中央仓库的镜像

5、请简述几种Maven仓库的主要区别?

本地仓库:本机上创建的Maven仓库

远程仓库:私服:公司或局域网的Maven仓库

中央仓库:最具有权威的,全世界通用的Maven仓库

中央仓库的镜像:是各大洲或者有能力的企业,学校  所搭建,维护的Maven仓库,相当于重要仓库的拷贝

6、请简述Maven中依赖的范围?

Compile:默认的依赖范围,主程序main可以访问,测试程序test

test:测试依赖范围

Provided:已依赖的范围,主程序和测试程序都可以访问,但不参

runtime:运行时依赖

System:系统依赖范围

7、请简述配置镜像仓库的原因?

镜像仓库可以为中央仓库分流,减轻中央仓库的负担,同时也可 以更快的响应用户的请求,提高用户访问速度;

镜像仓库是中央仓库的一个备份,他设置在各大洲,就是为了提 高用户的下载速度,并且各大厂商可以自己设置自己的镜像仓库

8、Maven对java程序进行自动化构建的原因是?

约定>配置>编码。能用配置解决的问题就不编码,能基于约定的 就不进行配置。而Maven正是因为指定了特定文件保存的目录才 能够对我们的java工程进行自动化构建。

 

Maven存在约定好的目录结构,特定的目录存放的是特定的文件,

9、请简单介绍使用Maven的好处 及原因?

好处:

Maven可以根据配置文件的参数自动的导入所需要的的依赖,快

原因:

Maven可以自动导入第三方jar包及其依赖的jar包,

自动处理jar包之间的依赖关系、自动获取第三方jar包

10、请介绍Maven中坐标概念

Groupld:公司或组织的域名倒序+当前项目名称

Artifactld:当前项目的模块名称

Version:当前模块的版本

11、使用哪三个向量在Maven仓库中唯一确定一个Maven工程?

Groupld(组织域名)、artifactld(包名)、version(版本号)

12、Maven中坐标是什么?

通过配置文件进行源选择,以配置文件中的参数与其组成一个绝 对路径,从路径上进行导入依赖

--------------------------------------------------------------------------

13、大数据的有哪些特点?

Valume:大量

Velocity:高速

Variety:多样

Value:低价值密度

14、什么是大数据?

指无法在一定的时间范围内用常规软件工具进行捕捉、管理和处 理的数据集合,是需要新处理的模式才具有更强大的决策力、洞 察发现力和流程优化能力的海量、高增长率和多样化的信息资产

15、大数据主要是用来解决什么的?

主要解决,海量数据的存储和海量数据的分析计算问题

16、What is Hadoop?

分布式系统基础框架

17、Hadoop有哪些优势?

高可靠性:Hadoop底层维护多个数据副本,即使hadoop某个计  算元素或存储出现故障,也不会导致数据的丢失

高扩展性:在集群分配任务数据,可方便扩展数以千计的节点

高效性:在MapReduce的思想下,Hadoop是并行工作的,以加

高容错性:能够自动将失败的任务重新分配

18、sudo命令用处?

可为Hadoop用户增加管理员权限,方便不熟,避免比较棘手的

19、使用sudo时有几点需要注意的?

尊重别人的隐私

输入前要考虑后果和风险

权限越大,责任越大

20、Hadoop2个组件 HDFS\YARN,一个思想(框架)MapReduce,它

HDFS:

NameNode(nn)存储文件的元数据

DataNode(dn) 在本地系统存储文件块数据

Secondary Namenode(2nn)每隔一段时间对NameNode元数

YARN:RescourceManager 资源管理器

NodeManager  节点管理器

ApplicationMaster 应用程序管理器

Container 容器

MapReduce:MapReduce将计算过程分为两个阶段,map和reduce

Map阶段并行处理输入数据

Reduce阶段对map结果进行汇总

21、中大型企业,大数据部门都由什么组成?

平台组,数据仓库组,实时组,数据挖掘组,报表开发组

22、Hadoop几种运行模式?

本地模式、伪分布模式、完全分布模式

23、SCP命令使用

scp:secure copy 安全拷贝

Scp可以实现服务器与服务器之间的数据拷贝

24、rsync命令使用

远程同步工具

主要用于备份和镜像。具有速度快、避免复制相同内容和支持符 号链接的优点。

25、rsync\SCP不同

Rsync做文件的复制要比scp的速度快

Rsync只对差异文件做更新

Scp是把所有文件都复制过去

26、DataNode和NameNode进程同时只能工作一个,排查方案。

原因:

NameNode在format初始化后会生成claserld(集群id),在没有 关闭进程或删除原有DataNode信息的情况下,再次格式化 namenode,生成不同的clusterld不同,所以导致两个不能对应上。

解决方案:jps查看namenode和DataNode,先将两个关闭

删除DataNode生成的data目录和logs目录,所有相关的

执行格式化命令