Hadoop 学习-JZTXT

关于Hadoop

Hadoop崩溃集群重启

先停掉进程，sbin/stop-yarn.sh sbin/stop-dfs.sh。然后删除每个集群上datanode的信息。默认在/tmp。如果配置了该目录，就去指定目录删除。data目录和log目录，最后执行格式化namenode format，再重启Hadoop。sbin/start-yarn.sh sbin/start-dfs.sh。打扫干净屋子再请客。
常见问题：

namenode和datanode启动失败，版本不一致。出错原因：namenode有个版本号，datenode也有版本号。存在于name/current/目录和data/current目录，cat version可以查看版本号。
jps发现进程已经没有，但是重新启动集群，提示进程已经开启。出错原因：Linux根目录下/tmp存在启动的进程临时文件，将集群相关进程文件删掉，再重新启动。
配置hdfs网页登录使用的静态用户为hadoop，否则在页面没有操作hdfs目录权限。
hadoop.http.staticuser.user hadoop
常用端口号namenode内部通信端口：8020/9000/9820，namenodeHttp ui 9870，mapreduce查看执行任务端口8088,历史服务器通信端口：19888

hdfs优缺点

优点：高容错性，数据自动保存多个副本，通过增加副本的形式，提高容错性；适合处理大数据，能够处理GB,TB甚至PB的数据，能够处理百万规模以上的文件数量；可构建在廉价机器上，通过多副本机制，提高可靠性。
缺点：不适合低延时数据，比如毫秒级的访问做不到。无法高效地对大量小文件进行存储。