自治故障管理系统推理规则的智能学习技术
计算机工程与科学
页数: 10 2023-05-15
摘要: 随着高性能计算机系统规模急剧增加,系统整体的固有可靠性逐步降低,产生了“可靠性墙”问题。为了应对这一挑战,天河高性能计算机系统设计了自治故障管理系统,通过该系统实时监控、分析、管理全系统的报警、故障和错误。自治故障管理系统所收集的故障消息垂直涵盖系统的各个逻辑层次,水平覆盖系统的全部功能模块,因此故障消息之间存在逻辑上的因果关系,即一个故障源会导致后续一系列的故障事件。提出了一... (共10页)