MTDCGM

摩尔线程数据中心GPU管理器(MTDCGM)是一套用于在集群环境中管理和监控mthreads数据中心GPU的工具。它包括主动健康监控、全面的诊断、系统警报等功能。基础设施团队可以单独使用它,并且它能够轻松地与mthreads合作伙伴提供的集群管理工具、资源调度和监控产品集成。

关于MTDCGM

关于MTDCGM

MTDCGM核心功能

健康检查与监控
健康检查:非入侵式的检查,提供实时监控和健康数据: • General:Power、Thermal • Memory: ECC SBE、ECC DBE、Retired SEB、Retire DBE以及XID • PCIe:Replay Counter • Mtlink:Replay Counter、Recovery Counter、CRC General Counter等
设备诊断及验证
• Environment检查: Device数量检查、Mtml lib 检测、Musa lib检查 • PCIe诊断:检测D2H、H2D、BID带宽和时延、D2D(Read、Write以及BID)带宽和时延(PCIe only),StressD2D(Read、Write以及BID)带宽和时延(Mtlink only) • Memory Test诊断:借用业界memtest86算法检测memory • Targeted Power:检测能够达到目标功耗并维持一段时间 • Targeted Stress :检测GPU perf(GFlops)达到目标perf