CAE-Bench：An Evaluation of Large Language Models in Structural Mechanics Simulation

doi:10.11871/jfdc.issn.2096-742X.2025.04.013

Abstract

Abstract:

[Background] Computer-aided engineering (CAE) plays a crucial role in equipment design and development. Recent advances in large language models (LLMs) present new possibilities for intelligent CAE assistance. [Methods] This study explores the capability of LLMs in CAE tasks by designing a dedicated evaluation benchmark, CAE-Bench, focusing on structural mechanics simulation. The benchmark consists of three capability levels—knowledge retention, problem-solving, and simulation application—spanning six fundamental subjects and nine subfields. Based on CAE-Bench, we develop a dataset of 3,340 multiple-choice questions to systematically assess 15 prominent LLMs. [Conclusions] Although LLMs exhibit a basic understanding of CAE knowledge, their proficiency remains limited. Average accuracy reaches 70% on knowledge-retention questions but falls to 50% on problem-solving questions. For simulation-application tasks, which require reasoning and comprehensive analysis, the accuracy declines further as task difficulty increases. Performance also varies substantially across application scenarios, with accuracies differing by up to a factor of four, indicating that a considerable gap still remains before these models can be deployed in real-world engineering applications. This study provides a feasible framework for evaluating LLMs in CAE domain and can serve as a reference for future endeavors in intelligent CAE and automated simulation.

Key words: large language models, benchmark, computer-aided engineering, structural mechanics simulation

LIU Dianyu,LIU Qingkai,XIAO Yuyang,WANG Jie. CAE-Bench：An Evaluation of Large Language Models in Structural Mechanics Simulation[J]. Frontiers of Data and Computing, 2025, 7(4): 155-168, https://cstr.cn/32002.14.jfdc.CN10-1649/TP.2025.04.013.

Figures/Tables 15

Fig.1

Fig.2

Table 1

Examples of problems in three levels"

能力层级	模板	题目
知识记忆	题型	多选题
	课程	结构力学
	内容	力法的三要素为（） A．基础连接方式 B. 力法方程 C．基本结构 D. 基本未知量
	答案	BCD
问题求解	题型	单选题
	课程	有限元分析
	内容	在分析一个储油管的强度时，为了减少计算量，应该采用以下哪种单元进行分析（） A 实体单元 B.壳单元 C.梁单元 D 平面单元
	答案	B
仿真应用	编号	静力-001
	标题	航空轮胎着陆过程受力变形仿真
	场景	【仿真对象】：假设B747-400客机以额定重量着陆，以H49×19.0-22子午线航空轮胎为仿真对象，单个轮胎约分配18吨机身重量，轮胎质量为110千克，轮辋质量为74.5千克；着陆路面为民用机场水泥混凝土道面。【仿真工况】：飞机着陆时水平速度设为75米/秒，飞机下沉率设为4米/秒。使用ABAQUS或ANSYS等CAE软件完成上述问题的仿真分析时，针对以下问题，请给出正确答案?
	问题	1. 轮胎中的橡胶采用哪种材料本构合适? a. 正交各向异性线弹性本构 b. 双线性弹塑性本构 c. YEOH超弹性本构 d. OGDEN超弹性本构 2. 若进行二维仿真分析，轮胎中的橡胶采用哪种单元算法合适? a. 平面应力单元 b. 平面应变单元 c. 壳单元 d. 轴对称不可压缩杂交单元 3. 若进行二维仿真分析，轮胎中的帘线骨架采用哪种单元算法合适? a. 杆单元 b. 梁单元 c. Rebar Layer单元 d. 弹簧单元 4. 着陆过程中，轮胎与地面之间的作用采用哪种接触算法合适? a. 点面接触，无摩擦 b. 点面接触，含摩擦 c. 面面接触，无摩擦 d. 面面接触，含摩擦 5. 着陆过程中，采用哪种求解分析类型合适? a. 频率响应分析 b. 静力学分析 c. 隐式动力学分析 d. 显式动力学分析 6. 着陆路面是否可以作为刚性边界处理? a. 可以 b. 不可以 7. 着陆过程中，轮辋是否可以作为刚体处理? a. 可以 b. 不可以 8. 着陆过程中，航空轮胎内的气体压强采用哪种算法合适? a. 流体腔表面单元 b. 压力载荷 c. 集中力载荷 d. 重力载荷
	难度	1.中 2.难 3.难 4.中 5.中 6.中 7.中 8.中
	答案	1.cd 2.d 3.c 4.bd 5.c 6.a 7.a 8.ab

Table 1

Table 2

Fig.3

Fig.4

Fig.5

Fig.6

Fig.7

Fig.8

Table 3

Fig.9

Table 4

Examples and analysis for three types of error categories"

错误类型	错题示例		错误分析
工况条件理解不足	标题	枪械枪管强度分析	题设中提到枪管温度升高至500 ℃，此时枪管的力学性能已随温度升高发生变化，需要采用考虑了温度变化影响的力热耦合求解器
	场景	【仿真对象】：标准步枪枪管，采用不锈钢合金材料，长度为50cm，内径为5mm，枪管内部刻有膛线，用于提高射击的精确度。枪管设计需承受高压气体冲击，保证射击时的稳定性和精度。【仿真工况】：模拟枪管在连续射击100发子弹后，内部压力达到3000bar，温度升高至500 ℃，分析枪管的应力和变形情况。
	问题	枪管分析应采用哪种求解器合适? A冲击求解器 b.力热耦合求解器 c.振动求解器 d.静力求解器
	参考答案	b
	LLMs的回答	['d', 'd', 'd', 'd', 'unknown', 'd', 'd', 'd', 'cd', 'd', 'd', 'd', 'd', 'd', 'd']
专业知识理解不足	标题	飞机尾翼前缘鸟撞过程变形仿真	对于选项中状态方程的专业知识理解不深入。a选项一般用于气体；b选项一般用于多孔介质；d选项一般用于炸药爆轰产物
	场景	【仿真对象】典型的飞机尾翼前缘抗鸟撞结构由曲翼蒙皮和加筋前梁两部分构成，其展向长度为1475 mm，后掠角为49.6°。曲翼蒙皮为6061航空铝合金材料，厚度为4 mm，质量约为9.3 kg，前梁为7050铝合金，厚度为2.5 mm，质量约为4.1 kg。鸟体长径比L∶D取为2∶1，质量为3.6kg。【仿真工况】飞鸟以120m/s速度，正面撞击尾翼前缘。
	问题	针对鸟体状态方程，一般采用下面哪种选项合适? a.理想气体 b.多孔介质 c.多项式 d.JWL
	参考答案	c
	LLMs的回答	['d', 'd', 'd', 'd', 'a', 'd', 'd', 'd', 'd', 'd', 'd', 'a', 'd', 'b', 'd']
逻辑推理能力不足	标题	非均质土石坝稳定性分析仿真	该题属于推理题，C1比C2值越大，说明上层的强度比下层的强度越大；一般而言，下层的强度越大，坝体越稳定。
	场景	【仿真对象】：土石坝是一种普遍采用的坝型，相较于其它类型的大坝具有取材方便、技术简单、建设周期短、成本低等优势。据国际大坝会议统计，土石坝占据全世界所有超15米大坝的80%以上。国内的土石坝多在上世纪 50-60 年代建成，由于当时技术条件的限制，这些工程经过半个多世纪以来的运营，产生了很多的“病险水库”，不仅影响其发挥自身效益，而且还可能给库区的下游民众带来经济损失与生命安全威胁。土石坝依靠土体颗粒之间的摩擦力来维持稳定，发生破坏的原因主要是受到剪切力的破坏。通过有仿真分析，水利工作者可以获得坝体的应力场，并预判坝体的位移和破坏面，为排查水利风险提供决策支持。【仿真工况】：模拟土石坝在自重作用下的稳定性条件。
	问题	工程中大坝常采用非均质材料组成，上下两层的粘聚力不同，假设上下两层的粘聚力分别为C1和C2，则在一定范围内，C1与C2的比值增大，则坝体的稳定性有何趋势? a.越强 b.越弱 c.不变 d.无明显趋势
	参考答案	b
	LLMs的回答	['a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a']

Table 4

Table 5

Fig.10

References 34

[1]	桑基韬, 于剑. 从ChatGPT看AI未来趋势和挑战[J]. 计算机研究与发展, 2023, 60(6): 1191-1201.
[2]	魏子舒, 韩越, 刘思浩, 等. 2021至2023年人工智能领域研究热点分析述评与展望[J]. 计算机研究与发展, 2024, 61(5): 1261-1275.
[3]	任天宇, 韩非, 张玲, 等. 结构损伤与断裂力学分析CAE软件发展现状[J/OL]. 计算力学学报, 1-16. http://kns.cnki.net/kcms/detail/21.1373.O3.20241025.1537.010.html.
[4]	吕成. 基于FLUENT的船用铝合金板激光焊接数值仿真分析[J]. 计算机辅助工程, 2024, 33(3): 7-12.
[5]	李睿, 孟思勤, 郝丽杰, 等. 基于金属磁量热技术的拾波线圈电磁性能仿真模拟[J]. 原子能科学技术, 2023, 57(9): 1835-1840. doi: 10.7538/yzk.2022.youxian.0883
[6]	周烨, 温玮. Comsol有限元软件在大型水下目标声学仿真上的应用[J]. 计算机应用与软件, 2020, 37(8): 74-78+84.
[7]	于博文, 何孝天, 徐进良. 超临界CO2池式换热实验与数值模拟研究[J]. 中国科学: 技术科学, 2024, 54(04): 636-644.
[8]	吴长鹏, 谢斌, 潘锋, 等. 汽车动力总成悬置的碰撞失效模拟研究[J]. 汽车工程, 2019, 41(1): 36-41+63.
[9]	荣吉利, 宋逸博, 王玺, 等. 核爆炸对地冲击作用下土体运动特性等效模拟[J]. 兵工学报, 2021, 42(1): 56-64.
[10]	胡涛, 申立群, 田宇阳, 等. 航天复杂系统测发控流程仿真引擎设计与评价[J]. 系统工程与电子技术, 2023, 45(12): 3866-3874. doi: 10.12305/j.issn.1001-506X.2023.12.16
[11]	王彬文, 段世慧, 聂小华, 等. 航空结构分析CAE软件发展现状与未来挑战[J]. 航空学报, 2022, 43(6): 28-51.
[12]	刘俊杰, 夏劲松, 金言, 等. 冰-水耦合作用下船舶与浮冰碰撞动响应数值仿真研究[J]. 船舶力学, 2020, 24(5): 651-661.
[13]	陈学军, 杨学文, 张永珍. 地雷爆炸作用下装甲车辆底部防护结构优化仿真研究[J]. 兵工学报, 2014, 35(S2): 353-357.
[14]	李君, 邱君降, 邵明堃, 等. 我国两化融合关键技术、产品及产业生态国际竞争力现状、制约因素及提升对策研究[J]. 计算机集成制造系统, 2019, 25(9): 2334-2343.
[15]	邵珠峰, 赵云, 王晨, 等. 新时期我国工业软件产业发展路径研究[J]. 中国工程科学, 2022, 24(2): 86-95. doi: 10.15302/J-SSCAE-2022.02.010
[16]	李双宝, 张博. 航空轮胎着陆冲击动力学仿真与安全分析[J]. 中国民航大学学报, 2024, 42(2): 58-64.
[17]	SINGHAL K, AZIZI S, TU T, et al. Large language models encode clinical knowledge[J]. Nature, 2023, 620(7972): 172-180.
[18]	裴炳森, 李欣, 蒋章涛, 等. 基于大语言模型的司法文本摘要生成与评价技术研究[J]. 数据与计算发展前沿(中英文), 2024, 6(6): 62-73.
[19]	吕仲涛. AI大模型在金融业的应用与展望——以中国工商银行为例[J]. 新金融, 2024(10): 7-9.
[20]	YU J, WANG X, TU S, et al. KoLA: Carefully Benchmarking World Knowledge of Large Language Models[C]// The Twelfth International Conference on Learning Representations. 2023.
[21]	HUANG Y, BAI Y, ZHU Z, et al. C-EVAL: a multi-level multi-discipline Chinese evaluation suite for foundation models[C]// Proceedings of the 37th International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2024: 62991-63010.
[22]	ZHONG W, CUI R, GUO Y, et al. AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models[C]// Duh K, Gomez H, Bethard S. Findings of the Association for Computational Linguistics:NAACL 2024. Mexico City, Mexico: Association for Computational Linguistics, 2024: 2299-2314.
[23]	WANG X, HU Z, LU P, et al. SCIBENCH: evaluating college-level scientific problem-solving abilities of large language models[C]// Proceedings of the 41st International Conference on Machine Learning:Vol. 235. Vienna, Austria: JMLR.org, 2024: 50622-50649.
[24]	ZHU J, LI J, WEN Y, et al. Benchmarking Large Language Models on CFLUE - A Chinese Financial Language Understanding Evaluation Dataset[C]// Ku L W, Martins A, Srikumar V. Findings of the Association for Computational Linguistics:ACL 2024. Bangkok, Thailand: Association for Computational Linguistics, 2024: 5673-5693.
[25]	LIU M, HU W, DING J, et al. MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models[J/OL]. Big Data Mining and Analytics, 2024, 7(4): 1116-1128. DOI:10.26599/BDMA.2024.9020044.
[26]	KRATHWOHL D R. A Revision of Bloom’s Taxonomy: An Overview[J]. Theory Into Practice, 2002, 41(4): 212-218.
[27]	孙训方, 方孝淑, 关来泰. 材料力学(第6版)(I)[M]. 北京: 高等教育出版社, 2019:52-355.
[28]	哈尔滨工业大学理论力学教研室. 理论力学(第9版)(I)[M]. 北京: 高等教育出版社, 2023: 21-387.
[29]	OPENAI, ACHIAM J, ADLER S, et al. GPT-4 Technical Report[A/OL]. arXiv, 2024. DOI:10.48550/arXiv.2303.08774.
[30]	GLM T, ZENG A, XU B, et al. ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools[A/OL]. arXiv, 2024. DOI:10.48550/arXiv.2406.12793.
[31]	ZHENG C, ZHOU H, MENG F, et al. Large Language Models Are Not Robust Multiple Choice Selectors[A/OL]. arXiv, 2024 DOI:10.48550/arXiv.2309.03882.
[32]	SUN Y, LIU C, ZHOU K, et al. Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models[C]// Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers), 2024: 9729-9750.
[33]	田萱, 吴志超. 基于信息检索的知识库问答综述[J]. 计算机研究与发展, 2025, 62(2): 314-335.
[34]	SCHMIRLER R, HEINZINGER M, ROST B. Fine-tuning protein language models boosts predictions across diverse tasks[J]. Nature Communications, 2024, 15(1): 7407. doi: 10.1038/s41467-024-51844-2 pmid: 39198457

模型名称	机构	参数量	发布时间
GPT-3.5-turbo	Open AI	200B	2024/2/16
GPT-4		/	2023/3/14
GPT-4o		/	2024/5/13
Claude-3-opus	Anthropic	/	2024/3/4
GLM-3-turbo	智谱	130B	2023/10/27
GLM-4-flash		9B	2024/6/5
GLM-4		/	2024/1/16
Qwen2-7B-instruct	阿里云	7B	2024/6/7
Qwen2-57B-A14B-instruct		57B
Qwen2-72B-instruct		72B
Qwen-max		/	2024/4/28
Moonshot-v1-8k	月之暗面	/	2024/4/16
DeepSeek-chat	深度求索	236B	2024/5/6
Yi-large	零一万物	/	2024/5/13
Baichuan4	百川智能	/	2024/5/22

LLMs	Only_q	Cont_q	Tit_cq
GLM-3-turbo	0.3898	0.5062	0.5047
GLM-4-flash	0.5124	0.5458	0.5489
GLM-4	0.4356	0.5575	0.5427
Qwen2-7B-instruct	0.434	0.545	0.5551
Qwen2-57B-A14B-instruct	0.4526	0.5528	0.5481
Qwen2-72B-instruct	0.5349	0.6172	0.6165
Qwen-max	0.4744	0.5629	0.552
Moonshot-v1-8k	0.4915	0.573	0.573
DeepSeek-chat	0.5551	0.618	0.6149
Yi-large	0.4767	0.5939	0.5885
Baichuan4	0.5512	0.6258	0.6297
GPT-3.5-turbo	0.5264	0.5846	0.5839
GPT-4	0.4441	0.5101	0.5054
GPT-4o	0.5481	0.6273	0.6312
Claude-3-opus	0.5435	0.6281	0.6227

LLMs	Accuracy
LLMs	wo CoT	w CoT
GPT-4o	0.6273	0.6555
Claude-3-opus	0.5877	0.6284
Baichuan4	0.6211	0.6284
Qwen-72b	0.604	0.6377
GLM-4	0.5536	0.5826