数据与计算发展前沿 ›› 2020, Vol. 2 ›› Issue (2): 145-154.
doi: 10.11871/jfdc.issn.2096-742X.2020.02.012
所属专题: “数据分析技术与应用”专刊
Chen Tongbao1,2,Wen Liangming1,2,Li Jianhui1,*()
摘要:
【目的】联合国可持续发展目标(Sustainable Development Goals ,SDGs)已经成为全球最重要的可持续发展问题。然而,SDGs指标相关数据高缺失率的现状严重影响了联合国对各国可持续发展目标实行过程的有效监测。研究如何对SDGs中的相关缺失数据进行补全具有重大的技术挑战,也对鞭策各国完成可持续发展目标具备重大意义。【方法】本文提出了一种融合MIC(最大信息系数)进行特征选择的迁移学习方法TLM(一种融合最大信息系数和迁移学习的方法),其能通过其它公开数据为目标变量构造特征,并联合相关回归技术建立数据预测模型,以达到对目标变量的缺失值进行预测的目的。【结果】本文以特定国家中SDGs指标3.2.1的数据集为例,使用TLM方法对目标变量的缺失值进行预测并补全,验证了TLM方法的有效性。【局限】由于影响SDGs指标的波动因素众多,因此,探索更多相关性分析方法并结合TLM方法对缺失值进行更加精确的预测是今后进一步研究的重点方向。【结论】结合了MIC和迁移学习的TLM方法能提升数据预测的准确率,可为SDGs相关领域工作者在处理数据缺失问题时提供重要的参考价值。