数据与计算发展前沿 ›› 2022, Vol. 4 ›› Issue (1): 30-41.
doi: 10.11871/jfdc.issn.2096-742X.2022.01.003
胡庆宝1,2,*(),郑伟1,2(
),王佳荣1,2(
),汪璐1,2(
),颜田1,2(
)
HU Qingbao1,2,*(),ZHENG Wei1,2(
),WANG Jiarong1,2(
),WANG Lu1,2(
),YAN Tian1,2(
)
摘要:
【目的】高能物理科学数据中心运维环境复杂,监控工具种类繁多,功能相对重叠且监控数据无法互通,日常运维面临巨大的挑战。为高效运用监控数据,提高数据中心运维能力,本文实现了高能物理科学数据中心智能运维系统。【方法】本文结合工业大数据技术、机器学习技术和数据中心运维需求,设计了通用的数据中心运维技术架构。介绍监控数据采集、分析、存储、共享、可视化等系统核心功能及其实现方式,以及依托该系统在数据中心数据存储、计算服务、网络安全等日常运维的具体应用效果。【结果】本文设计的运维框架,在高能物理科学数据中心日常运维中得到了成熟的应用和实践,提升了数据中心运维管理能力。【结论】智能运维系统在高能物理科学数据中心的应用,加速了运维监控从数据持久化、统一化到数据业务化、生态化的价值演进,实现了基于数据驱动的数据中心智能化运维生态。