1.简要的描述一下如何安装一个apache开原版的hadoop,无需列出完整步骤。  1.创建hadoop用户.  2.setup修改IP.  3.安装javaJdk,并且修改etc/profile文件,配置java的环境变量.  4.修改host的文件域名  5.安装SSH免密码通信。  6.解压hadoop包.  7配置conf文件下的hadoop-env.sh.core-site.sh
转载 2023-08-18 20:44:13
56阅读
目录36.HDFS文件能否直接删除或则修改?37.谈谈hdfs中的block、package、chunk?38.HDFS能否多线程写?39.读写过程,数据完整性如何保持?40.文件授权期限分为几个等级?41.谈谈hdfs中的Checksum?42.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?43、什么样的计算不能用mr来提速?44.hadoop主要的端口有哪些?45.请简述Ha
转载 2023-07-12 11:21:25
70阅读
1、 HDFS 中的 block 默认保存几份?默认保存3份2、HDFS 默认 BlockSize 是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间5、文件大小设置,增大有什么影响?HDFS中的文件在物理上是分块存储(block),块的
HadoopHadoop 中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下 HDFS 读写流程 img HDFS 写流程:1.客户端发送上传请求,并通过RPC与NameNode建立通信。NameNode检查用户是否有上传权限,上传的文件在HDFS对应的目录下是否同名。如果其中任何一个不满足,就会直接报
转载 2024-01-09 21:54:27
114阅读
/** * 阿里巴巴面试题 * 有一堆石子共100枚,甲乙轮流从该堆中取石子,每次可以取2、4或6枚,取得最后的石子的玩家为赢家,若甲先取,则: * A 谁都无法必胜 * B 乙必胜 * C 甲必胜 * D 不确定 * 闲来蛋疼就做这道题试试 思路分析 * 假设每人都只能取2枚,那么一共可以取50次,所以甲先取的话,那么最后一次必然是乙 * 同理,若每次只能取4枚,那么一共可以取25次,所以甲先取,最后一次必然是甲,但是若每次取6枚的话,那么就不能整除, * 所以,此题难在关键不确定每次甲或乙会取几个,但是我们可以看到一个共性,如果取石子的次数是奇数...
转载 2013-09-26 22:06:00
117阅读
2评论
本文将介绍Activity的销毁和重建。销毁分两种:第一种是正常的销毁,比如用户按下Back按钮或者是activity自己调用了finish()方法;另一种是由于activity处于stopped状态,并且它长期未被使用,或者前台的activity需要更多的资源,这些情况下系统就会关闭后台的进程,以恢复一些内存。AD:干货来了,不要等!WOT2015 北京站演讲PPT开放下载!两种销毁第一种是正常
原创 2015-04-26 16:10:26
640阅读
http://wenku.baidu.com/link?url=5hXV00kBdgImX-MidUHrTMzOxw2Jo_tTlE-pHkc-JaoilYCsM_iVpPKgXvrdQBt65xD1LrDMX_xJa53YJe_jb63K5iEYUDbCxG6TaC_UR2K
转载 2021-10-19 09:35:02
131阅读

转载 2022-02-27 16:15:36
52阅读
一:三个面试题面试题一:有一个非常大的文件,一台机器处理不了,存储的是ip每行一个,统计一下出现次数最多的那个ip。如果是小文件1)创建io流对这个文件进行读取,将读取的内容放在map集合中(ip,次数)2)循环遍历map集合,取出value最大的值大文件情况map集合,list集合,数组,set集合——-都是在内存进行操作的,文件过大会造成内存溢出,根本无法处理。一台机器原始性能有限,根据摩尔定
转载 2024-05-30 09:22:31
137阅读
待续: Hadoop shuffle流程 Hive调优 kafka 数据重复和数据乱序:幂等性 flume调优 监控hadoop 0.什么是hadoo Hadoop是一个分布式系统基础架构,解决数据存储和数据分析计算的问题1.hadoop三大框架及作用 1.HDFS:数据的存储 2.Mapreduce:数据的计算 3.YARN :给计算框架分配资源 2.HDFS读流程
转载 2023-10-08 23:45:04
136阅读
前言结合南国 不到一年时间 学习大数据的知识梳理,加上2019年春天找实习的经历,在这里南国写博客的同时会参考一些资料 写出大数据内一些高频的面试知识点。1.Hadoop基础1.1 通常是集群的最主要瓶颈:磁盘IOcpu 和内存在大数据集群中都是可以扩充的,磁盘不行。1.2 Yarn,ClouderaManager可以作为集群的管理,zookeeper不可以。Zookeeper:是一个开源的分布式
转载 2023-09-04 14:50:19
20阅读
hadoop 2022 面试题总结了目录概述需求:设计思路相关代码如下:实验效果:分析:小结:目录概述hadoop 学习资料需求:设计思路相关代码如下:实验效果:待完成分析:16、FileInputFormat切片机制 job提交流程源码详解   waitForCompletion()   submit(); //建立连接: Connect();//创建提交job的代理 ///判断是本
    1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴 2、大数据的起源是(C)。(单选题,本题2分)A:金融B:电信C:互联网D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师 4、(D)反映
原创 2021-05-20 14:30:44
1031阅读
1.0简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:第一题:1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred...
转载 2021-08-30 11:26:26
1349阅读
1点赞
文章目录1、集群的最主要瓶颈2、Hadoop运行模式3、Hadoop生态圈的组件并做简要描述4、解释“hadoop”和“hadoop 生态系统”两个概念5、请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?6、基于 Hadoop 生态系统对比传统数据仓库有何优势?7、如何选择不同的文件格式存储和处理数据CSV 文件JSON 文件Avro 文件Column
转载 2023-07-13 16:44:15
266阅读
1、请讲述HDFS输入文件的具体步骤?1、Client向NameNode 提交需要上传文件的申请2、NameNode返回响应给Client,同意上传文件的请求3、Client向NameNode 申请子节点DataNode.4、NameNode 响应给Client它的子节点DataNode5、Client 向DataNode提交申请建立传输通道。6、DataNode 依次响应连接 (dn1,dn2,
转载 2023-08-08 02:15:29
87阅读
一:SQL tuning 类   1:列举几种表连接方式   hash join/merge join/nest loop(cluster join)/index join   2:不借助第三方工具,怎样查看sql的执行计划   set autot on    explain plan set statement_id = &item_id for
原创 2014-10-27 09:09:26
519阅读
目录1.描述一下hdfs的写流程 读流程?2.详细讲解一下hdfs的体系结构3.如果一个datanode出现宕机,恢复流程是什么样的?4.通常你是如何解决Haddop的NameNode宕机的,流程是什么?5.描述一下NameNode的元数据的管理 6.Hadoop集群中有哪些进程?他们各自有什么作用?7.讲解一下Hadoop中combiner和partition的作用8.你在MapRed
转载 2023-12-20 20:41:58
119阅读
1、简要描述如何安装配置一个apache开源版hadoop,描述即可,列出步骤更好        --解压hadoop包,到指定安装文件夹        --配置linux基本网络环境、jdk环境、防火墙环境      &nbsp
转载 2024-01-09 22:35:00
182阅读
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点​​这里​​可以跳转到教程。”。 ​​大数据面试宝典目录,请点击​​HADOOP 面试题目录1. 下列哪项通常是集群的最主要瓶颈2. 下列哪项可以作为集群的管理工具?3. 下列哪个是Hadoop 运行的模式?4. 列举几个hadoop 生态圈的组件并
原创 2022-12-28 15:19:40
234阅读
  • 1
  • 2
  • 3
  • 4
  • 5