1. 启动hadoop2.5.2遇到的datanode启动不了

日志信息如下:

hadoop problem_开发工具


 简单的操作是将这个节点上hadoop工作目录中内存删除就行了

 

 

2.Hadoop开启关闭调试信息

开启:export HADOOP_ROOT_LOGGER=DEBUG,console

关闭:export HADOOP_ROOT_LOGGER=INFO,console

具体参考:http://bufeifang.blog.163.com/blog/static/55898151201232652239324/

 

3.中文分词器

http://blog.sina.com.cn/s/blog_7663527601012vdg.html

 

4.在window下eclipse导出的jar包依赖外部jar包,因此无法使用hadoop命令执行成功。

把hadoop依赖的外部jar文件都拷贝到JAVA_HOME/jre/lib/ext/下面,就可以了

 

5.hadoop常见问题总结

http://www.sharpcloud.cn/thread-4927-1-1.html

 

6.org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container

问题原因:namenode,datanode时间同步问题

解决办法:多个datanode与namenode进行时间同步,在每台服务器执行:ntpdate time.nist.gov,确认时间同步成功。

最好在每台服务器的 /etc/crontab 中加入一行:

0 2 * * * root ntpdate time.nist.gov && hwclock -w

 

查看centOS时区,

 

7.mapReduce程序中如何添加自己的日志

 

8.在hadoop2.5中怎么找不到HADOOP_HOME/logs/userlogs怎么没有

 

9.官网MapReduce实例代码详细批注

http://www.linuxidc.com/Linux/2014-10/108194.htm

 

10.创建软链

 

 

11.Hive启动报错: Found class jline.Terminal, but interface was expected

http://www.linuxidc.com/Linux/2015-10/123822.htm

 

12.linux ps命令

有时候系统管理员可能只关心现在系统中运行着哪些程序,而不想知道有哪些进程在运行。由于一个应用程序可能需要启动多个进程。所以在同等情况下,进程的数 量要比程序多的多。为此从阅读方面考虑,管理员需要知道系统中运行的具体程序。要实现这个需求的话,就需要利用命令ps来帮忙。

要对进程进行监测和控制,首先必须要了解当前进程的情况,也就是需要查看当前进程,而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行和运行的状态、进程是否结束、进程有没有僵死、哪些进程占用了过多 的资源等等。总之大部分信息都是可以通过执行该命令得到的。