HDFS巡检

论坛 期权论坛 编程之家     
选择匿名的用户   2021-5-31 21:39   72   0

1.HDFS总体状态

1.HDFS状态,如下的红色提示需要关注

图片

图片

图片

图片

2.HDFS容量是否过阈值

图片

2.HDFS UI巡检

1.Summary巡检

图片

对应上图所示标号,逐一进行解释:

(1)HDFS总文件数:此数值代表着HDFS存储内有多少文件,该数值的警告阈值为5000W

(2)HDFS总存储容量:此数值代表HDFS总存储容量

(3)占用存储容量:此数值代表为占用的HDFS存储容量

(4)HDFS占用比:此数值应时刻关注,警戒阈值为75%,如有超过,应立即告知业务侧清理数据

(5)平均占用比例:此数值代表着HDFS各个节点的存储使用均衡情况,若最后一个数字高于5%,说明此刻系统的存储均衡是不正常的,需要判断是否有故障节点和执行balance操作

(6)集群内断开节点:此数值代表集群内与hdfs断开连接的节点,通常故障节点,可尝试登陆该主机判断故障问题(服务挂掉,系统宕机,硬件故障等)

2.NameNode Journal Status

3.Datanode Volume Failures

图片

CM中查看

图片

图片

3.NameNode巡检

1.NameNode高可用是否存活

图片

2.NameNode状态是否正常

图片

3.编辑日志同步平均时间是否过高

图片

4.RPC队列长度是否过高、处理时间是否过高

图片

5.JVM堆栈内存使用情况

6.主机内存使用情况

图片

NameNode节点主机内存,一般使用56G左右,总内存128G。内存相对充裕。

图片

NameNode进程本身的内存,平均使用在30G,总共分配了60G。进程内存相对充裕。

图片

NameNode 主机CPU使用率平均在40%,CPU资源相对充裕。

图片

NameNode GC,平均低于1ms,最大4.5ms,GC相对正常。

NameNodeRPC 连接数,平均在2.5K,最高5.5K,集群打开RPC连接数比较多,由于集群比较大,并且对HDFS访问较多,确实RPC会比较高。

7.磁盘延迟

图片

4.DataNode巡检

在HDFS界面顶端点击Datanodes,会出现该集群内所有DataNode主机清单

图片

图片

图片

注意:该清单只包括DataNode,不包括NameNode等其他节点

图片

图片

(1)上图所示圆圈部分,是代表该节点存在坏卷,有可能是文件系统损坏也有可能是硬盘损坏,需要登录该主机进行故障判断,从而解决故障

(2)粉色部分代表该主机已经于HDFS断开,有可能是服务挂了,也有可能是主机硬件故障,同样需要登录主机判断(这里与首页Dead Node是一致的)

5.集群存储超过阈值案例

当Hdfs页面两个参数接近阈值时,需要清理集群上数据。

1、HDFS总文件数:此数值代表着HDFS存储内有多少文件,该数值的警告阈值为5000W;

2、HDFS占用比:此数值应时刻关注,警戒阈值为75%,如有超过,应立即告知业务侧清理数据。

5.1清理集群数据方法

1、集群存储使用率接近75%时通知业务侧清理数据,务必将存储降到75%以下,4个主要的项目经理:XX、XX、XX、XX。具体目录及清理人见下表。

通知方式:电话通知项目经理,并在大数据平台运维大群里通报各项目经理,安排人员清理并且反馈清理进展,必要时通过集团接口人XXX推进。

2、无法完成降到75%以下目标时,通过降副本方式降存储。可以降副本的有:df_dw.db下的大表,df_dw.db下的大表。

降副本记录:

图片

3、HDFS:/opt/hive/hivescratchdir 为M/R加工临时目录,7天以上的数据可以清理。

在xxx.xxx.18.101上nohup启动了清理 HDFS:/opt/hive/hivescratchdir/下超过7天的文件目录的脚本,维护人员需要跟踪进度。

4、HDFS:/files,该目录下小文件超多,文件数阈值300万,省分每天上传文件到这个目录,文件入HBase库后有定时清理计划,但发现接近阈值通知郑腾飞手动清理。

5.2清理回收站文件

每天早上8点,hadoop@xxx.xxx.18.101上的定时任务会执行/home/hadoop/trash.sh,这个脚本将清理HDFS上其他用户的.Trash目录,转移到hadoop用户的.Trash目录下,可以手动再删除之。

图片

hadoop fs -du -s -h /user/hadoop/.Trash/

hadoop fs -rm -r /user/hadoop/.Trash/*此步操作务必小心!

图片

6.平均负载和磁盘存储

图片

目前集群节点的磁盘使用普遍达到了70%以上。存储已经较满。建议进行扩容。

平均负载如果超过CPU核数两倍以上说明有点高,如果在5~10倍以上就很高了。

7.参数巡检(第一次巡检需检查)

图片

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP