遇到HDFS的问题,首先需要排除可用类问题。可用类问题按影响、紧急程度不同,可继续分为HDFS功能性受损<=HDFS高可靠性、高可用性受损

按照以下步骤进行排查,以下任意一项有异常,则判定为HDFS功能性受损,需紧急关注!!!

1、首先判断namenode进程是否正常,通过控制台查看状态是否正常,也可进一步通过后台命令:ps -ef|grep -i 'namenode'查看进程是否存在,以及是否最近有重启;

2、去到namenode运行日志目录下查看日志是否正常在更新,cd /var/log/hadoop-hdfs ls -rlt查看运行日志最后更新时间是否在刷新;

3、确定HDFS读写功能是否正常,即执行hadoop fs -ls / 以及上传一个小文件做测试hadoop fs -put test.log /tmp ,判断是否能正常执行;

进一步分析按照以下步骤

a、检查namenode所在的ecs主机是否正常:嫦娥平台健康检查+管控界面是否有异常事件(如oom)+常用命令诊断(df -h、df -i、free -g、top);

b、查看namenode运行日志,过滤error或者fatal等信息,根据报错信息再做进一步分析;

c、确认zk服务是否正常,同样是查看进程,查看日志,以及zk登入测试

按照以下步骤进行排查,以下任意一项有异常,则判定为HDFS高可靠性、高可用性受损,非紧急,可根据业务反馈情况评估影响范围大小

1、首先判断ZKFC、JN、DN进程是否正常,通过控制台查看状态是否正常,也可进一步通过后台命令:ps -ef|grep -i 'pid'查看进程是否存在,以及是否最近有重启;

2、去到对应进程的运行日志目录下查看日志是否正常在更新,cd /var/log/hadoop-hdfs ls -rlt查看运行日志最后更新时间是否在刷新;

进一步分析按照以下步骤

a、检查所在的ecs主该进程所在主机是否正常:嫦娥平台健康检查+管控界面是否有异常事件(如oom)+常用命令诊断(df -h、df -i、free -g、top);

b、查看对应进程的运行日志,过滤error或者fatal等信息,根据报错信息再做进一步分析;