数据与计算发展前沿 ›› 2025, Vol. 7 ›› Issue (6): 136-148.
CSTR: 32002.14.jfdc.CN10-1649/TP.2025.06.013
doi: 10.11871/jfdc.issn.2096-742X.2025.06.013
周法国1(
),刘芳2,*(
),王彦棡2,王珏2,于淼1,李顺德2,周纯葆2,王婧2,杨沁蒙2
ZHOU Faguo1(
),LIU Fang2,*(
),WANG Yangang2,WANG Jue2,YU Miao1,LI Shunde2,ZHOU Chunbao2,WANG Jing2,YANG Qinmeng2
摘要:
【应用背景】随着大规模深度学习模型的快速发展,训练大规模模型所需的计算资源不断提升,单一的计算设备已难以满足大规模深度学习模型的训练需求。因此,在深度学习领域,使深度学习框架支持超算平台具有重要的战略意义。作为国产自主研发的深度学习框架,MindSpore凭借其高效的计算性能、灵活的调试功能以及对分布式训练的便捷支持,成为人工智能研究领域的重要工具之一。【问题】MindSpore框架并不支持曙光高性能计算机,无法在该超算平台上直接部署和运行,严重地限制了MindSpore框架在超算环境中的应用。【方法】针对MindSpore框架无法在曙光高性能计算机上运行的问题,本文基于曙光高性能计算机的硬件架构和软件环境,对MindSpore框架进行了移植与适配。曙光高性能计算机采用CPU与海光DCU的异构架构,MindSpore框架对该超算平台的不支持,表现为框架中的算子无法在海光DCU上调度执行,因此本文以框架中的原始GPU算子为基础,设计了面向海光DCU的算子移植方案。【结果】依据面向海光DCU的算子移植方案,本文共成功移植了278个算子,使得MindSpore框架能够在曙光高性能计算机上运行。并在曙光高性能计算机上,对LLaMA模型进行了分布式并行训练,验证了MindSpore框架中海光DCU算子良好的执行性能。