设备型号:KunTai R722
主板型号:S920X00-2*5250
iBMC Version:3.11.00.27
BIOS Version:7.15
CPLD Version :2.00
1台R722 硬盘故障,导致整机被上层腾讯云踢出
查看current_event当前告警信息,设备当前无告警。

查看sel事件记录,近期仅存在重启记录与硬盘更换记录,无其他异常。

查看RAID_Controller_Info.txt日志,当前RAID卡状态正常,模式为JBOD,Disk6有部分错误计数。


分析硬盘smart参数日志,发现Disk6参数异常,硬盘存在UNC和坏道。

Message显示sdg有多次复位

Dmesg显示sdg有掉盘

上升至原厂研发后判断该问题与其他厂商所遇问题一致,为上层腾讯云平台机制有关。
建议优先进行系统优化,防止再次出现整机剔除,后续进行硬盘固件版本升级。
综上,本次故障原因为硬盘Disk6产生UNC和重映射计数,业务侧对盘读写时IO时延高而剔除硬盘。
硬件侧
更换问题硬盘Disk6,升级本批次设备中同型号希捷硬盘固件版本至SN04&SC04及以上,改进硬盘产生smart参数异常问题。
软件侧
建议OS侧排查是否合入SAS驱动补丁,如确定已合入则忽略此条;
建议业务侧读到报错UNC地址时,进行读修复(存储会采用多节点备份,从正常节点数据写到异常盘里)或不在持续读同一个报错地址,避免进入异常循环导致IO时延高。