关于Hadoop
Hadoop崩溃集群重启
先停掉进程,sbin/stop-yarn.sh sbin/stop-dfs.sh。然后删除每个集群上datanode的信息。默认在/tmp。如果配置了该目录,就去指定目录删除。data目录和log目录,最后执行格式化namenode format,再重启Hadoop。sbin/start-yarn.sh sbin/start-dfs.sh。打扫干净屋子再请客。
常见问题:
- namenode和datanode启动失败,版本不一致。出错原因:namenode有个版本号,datenode也有版本号。存在于name/current/目录和data/current目录,cat version可以查看版本号。
- jps发现进程已经没有,但是重新启动集群,提示进程已经开启。出错原因:Linux根目录下/tmp存在启动的进程临时文件,将集群相关进程文件删掉,再重新启动。
- 配置hdfs网页登录使用的静态用户为hadoop,否则在页面没有操作hdfs目录权限。
hadoop.http.staticuser.user hadoop - 常用端口号namenode内部通信端口:8020/9000/9820,namenodeHttp ui 9870,mapreduce查看执行任务端口8088,历史服务器通信端口:19888
hdfs优缺点
优点:高容错性,数据自动保存多个副本,通过增加副本的形式,提高容错性;适合处理大数据,能够处理GB,TB甚至PB的数据,能够处理百万规模以上的文件数量;可构建在廉价机器上,通过多副本机制,提高可靠性。
缺点:不适合低延时数据,比如毫秒级的访问做不到。无法高效地对大量小文件进行存储。