HDFS巡检

1.HDFS总体状态

1.HDFS状态，如下的红色提示需要关注

2.HDFS容量是否过阈值

2.HDFS UI巡检

1.Summary巡检

对应上图所示标号，逐一进行解释：

（1）HDFS总文件数：此数值代表着HDFS存储内有多少文件，该数值的警告阈值为5000W

（2）HDFS总存储容量：此数值代表HDFS总存储容量

（3）占用存储容量：此数值代表为占用的HDFS存储容量

（4）HDFS占用比：此数值应时刻关注，警戒阈值为75%，如有超过，应立即告知业务侧清理数据

（5）平均占用比例：此数值代表着HDFS各个节点的存储使用均衡情况，若最后一个数字高于5%，说明此刻系统的存储均衡是不正常的，需要判断是否有故障节点和执行balance操作

（6）集群内断开节点：此数值代表集群内与hdfs断开连接的节点，通常故障节点，可尝试登陆该主机判断故障问题（服务挂掉，系统宕机，硬件故障等）

2.NameNode Journal Status

3.Datanode Volume Failures

CM中查看

3.NameNode巡检

1.NameNode高可用是否存活

2.NameNode状态是否正常

3.编辑日志同步平均时间是否过高

4.RPC队列长度是否过高、处理时间是否过高

5.JVM堆栈内存使用情况

6.主机内存使用情况

NameNode节点主机内存，一般使用56G左右，总内存128G。内存相对充裕。

NameNode进程本身的内存，平均使用在30G，总共分配了60G。进程内存相对充裕。

NameNode 主机CPU使用率平均在40%，CPU资源相对充裕。

NameNode GC，平均低于1ms，最大4.5ms，GC相对正常。

NameNodeRPC 连接数，平均在2.5K，最高5.5K，集群打开RPC连接数比较多，由于集群比较大，并且对HDFS访问较多，确实RPC会比较高。

7.磁盘延迟

4.DataNode巡检

在HDFS界面顶端点击Datanodes，会出现该集群内所有DataNode主机清单

注意：该清单只包括DataNode，不包括NameNode等其他节点

（1）上图所示圆圈部分，是代表该节点存在坏卷，有可能是文件系统损坏也有可能是硬盘损坏，需要登录该主机进行故障判断，从而解决故障

（2）粉色部分代表该主机已经于HDFS断开，有可能是服务挂了，也有可能是主机硬件故障，同样需要登录主机判断（这里与首页Dead Node是一致的）

5.集群存储超过阈值案例

当Hdfs页面两个参数接近阈值时，需要清理集群上数据。

1、HDFS总文件数：此数值代表着HDFS存储内有多少文件，该数值的警告阈值为5000W；

2、HDFS占用比：此数值应时刻关注，警戒阈值为75%，如有超过，应立即告知业务侧清理数据。

5.1清理集群数据方法

1、集群存储使用率接近75%时通知业务侧清理数据，务必将存储降到75%以下，4个主要的项目经理：XX、XX、XX、XX。具体目录及清理人见下表。

通知方式：电话通知项目经理，并在大数据平台运维大群里通报各项目经理，安排人员清理并且反馈清理进展，必要时通过集团接口人XXX推进。

2、无法完成降到75%以下目标时，通过降副本方式降存储。可以降副本的有：df_dw.db下的大表，df_dw.db下的大表。

降副本记录：

3、HDFS:/opt/hive/hivescratchdir 为M/R加工临时目录，7天以上的数据可以清理。

在xxx.xxx.18.101上nohup启动了清理 HDFS:/opt/hive/hivescratchdir/下超过7天的文件目录的脚本，维护人员需要跟踪进度。

4、HDFS:/files，该目录下小文件超多，文件数阈值300万，省分每天上传文件到这个目录，文件入HBase库后有定时清理计划，但发现接近阈值通知郑腾飞手动清理。

5.2清理回收站文件

每天早上8点，hadoop@xxx.xxx.18.101上的定时任务会执行/home/hadoop/trash.sh，这个脚本将清理HDFS上其他用户的.Trash目录，转移到hadoop用户的.Trash目录下，可以手动再删除之。

hadoop fs -du -s -h /user/hadoop/.Trash/

hadoop fs -rm -r /user/hadoop/.Trash/*此步操作务必小心！

6.平均负载和磁盘存储

目前集群节点的磁盘使用普遍达到了70%以上。存储已经较满。建议进行扩容。

平均负载如果超过CPU核数两倍以上说明有点高，如果在5~10倍以上就很高了。

7.参数巡检（第一次巡检需检查）

HDFS巡检

浏览过的版块