设备型号:KunTai A924
BMC版本:3.10.02.49
BIOS版本:7.09
CPLD版本:0.13
1台 KunTai A924 服务器系统下lspci只能显示7张卡,查看id为41:00.0的NPU卡掉卡
Current_event日志显示2025-10-20 Monday 23:17:16 NPU Board7 NPU 断连;
0x81a3880c与0x819b8605均为链路质量告警,建议检查NPU网口连接情况

RAID卡以及硬盘状态正常


Npu_info显示NPU7功率过高

Sensor日志中无法获取npu7的温度

Lspci查看系统侧41:00.0不识别

npu-smi info信息中,NPU7识别不到

服务器OS执行 lspci | grep acc 命令, 查询到的pcie建链条数低于NPU 芯片个数,表明服务器启动NPU和CPU的建链失败
建议将NPU7交叉验证,检查NPU PCIE物理链路
尝试交叉NPU卡/模组 观察故障是跟随NPU;
是 => NPU模组故障,更换NPU卡/模组;
否 => 更换NPU链路观察是否恢复。