数据与计算发展前沿 ›› 2024, Vol. 6 ›› Issue (4): 46-58.
CSTR: 32002.14.jfdc.CN10-1649/TP.2024.04.004
doi: 10.11871/jfdc.issn.2096-742X.2024.04.004
• 专刊:面向国家科学数据中心的基础软件栈及系统 • 上一篇 下一篇
蔡华谦1,2(),刘逸豪1,3,关天鹏1,3,吴恺东1,2,杨婧如1,2,罗超然1,朱小杰4,刘佳4,黄罡1,2,*(
)
CAI Huaqian1,2(),LIU Yihao1,3,GUAN Tianpeng1,3,WU Kaidong1,2,YANG Jingru1,2,LUO Chaoran1,ZHU Xiaojie4,LIU Jia4,HUANG Gang1,2,*(
)
摘要:
【目的】 科学数据的使用场景日益丰富,了解已有场景中科学数据如何使用,对科技探索与发现有很重要的启发和借鉴作用。然而,由于科学数据的场景化使用蕴藏了复杂的输入、算法和执行环境,这使得如何统一地描述数据的场景化使用成为了一个挑战。这种统一描述的缺失导致了理解和学习已有场景中的科学数据的用法变得难度大、成本高、效率低。【方法】 针对数据场景化使用的统一描述缺失的问题,本文采用数据语用的概念,从超图的角度来建模数据的场景化使用,设计了面向数据语用的新型标记语言DPML(Data Pragmatics Markup Language),并提出了一套基于AI的科学数据语用的自动化提取方法。【结果】 DPML可以表征多种典型的基于科学数据的场景化使用中的数据语用,同时利用上述的自动化方法,可以高效地提取出DPML。【结论】 通过提出DPML及其自动化提取方法,本文实现了科学数据场景化使用中隐含的数据语用的自动化表征。通过数据以及数据之间的语用关系所形成的科学数据的语用网络蕴藏了科学数据如何使用的知识,可以促进科学数据跨学科的共享和再利用,为科学研究的深入合作与数据驱动发现开辟了新的路径。