数据与计算发展前沿 ›› 2023, Vol. 5 ›› Issue (6): 94-103.
CSTR: 32002.14.jfdc.CN10-1649/TP.2023.06.009
doi: 10.11871/jfdc.issn.2096-742X.2023.06.009
WEI Ting*(),PENG Liang,NIU Tie,ZHANG Honghai
摘要:
【背景】 在高性能计算系统中,更早、更快地发现计算作业异常及其退出原因,可以帮助用户缩短纠错时间,更有效地使用价格不菲的计算资源。【目的】 为了实现对计算作业异常的预警,快速定位作业失败根因,提高用户使用体验。【方法】 本文基于某超大型超级计算集群的监控数据,针对特定应用分析了运行特征与计算作业运行成败的关系。采用Isolation Forest算法对作业运行时所在计算节点的运行状态进行异常检测,并对作业是否失败进行预测;通过特征分析,同时结合日志和其他故障数据构建HPC作业失败根因图谱。【结果】 通过对算法的数值分析,发现Isolation Forest能够较准确地预测作业失败。基于应用运行特征关联分析构造的根因图谱,可较好地融汇作业运行和资源使用情况的所有影响因子,并展现所有因子的因果关系。【结论】 本文的研究可以帮助高性能计算系统,特别是超大型超级计算系统的管理人员、用户尽早发现计算作业异常,并快速提供问题定位依据,对减少计算资源浪费、提高计算效率具有重要意义。