1. 启动hadoop2.5.2遇到的datanode启动不了
日志信息如下:
简单的操作是将这个节点上hadoop工作目录中内存删除就行了
2.Hadoop开启关闭调试信息
开启:export HADOOP_ROOT_LOGGER=DEBUG,console
关闭:export HADOOP_ROOT_LOGGER=INFO,console
具体参考:http://bufeifang.blog.163.com/blog/static/55898151201232652239324/
3.中文分词器
http://blog.sina.com.cn/s/blog_7663527601012vdg.html
4.在window下eclipse导出的jar包依赖外部jar包,因此无法使用hadoop命令执行成功。
把hadoop依赖的外部jar文件都拷贝到JAVA_HOME/jre/lib/ext/下面,就可以了
5.hadoop常见问题总结
http://www.sharpcloud.cn/thread-4927-1-1.html
6.org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container
问题原因:namenode,datanode时间同步问题
解决办法:多个datanode与namenode进行时间同步,在每台服务器执行:ntpdate time.nist.gov,确认时间同步成功。
最好在每台服务器的 /etc/crontab 中加入一行:
0 2 * * * root ntpdate time.nist.gov && hwclock -w
查看centOS时区,
7.mapReduce程序中如何添加自己的日志
8.在hadoop2.5中怎么找不到HADOOP_HOME/logs/userlogs怎么没有
9.官网MapReduce实例代码详细批注
http://www.linuxidc.com/Linux/2014-10/108194.htm
10.创建软链
11.Hive启动报错: Found class jline.Terminal, but interface was expected
http://www.linuxidc.com/Linux/2015-10/123822.htm
12.linux ps命令
有时候系统管理员可能只关心现在系统中运行着哪些程序,而不想知道有哪些进程在运行。由于一个应用程序可能需要启动多个进程。所以在同等情况下,进程的数 量要比程序多的多。为此从阅读方面考虑,管理员需要知道系统中运行的具体程序。要实现这个需求的话,就需要利用命令ps来帮忙。
要对进程进行监测和控制,首先必须要了解当前进程的情况,也就是需要查看当前进程,而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行和运行的状态、进程是否结束、进程有没有僵死、哪些进程占用了过多 的资源等等。总之大部分信息都是可以通过执行该命令得到的。