数据与计算发展前沿

Select

1. 数据与计算平台是驱动当代科学研究发展的重要基础设施

廖方宇,洪学海,汪洋,褚大伟

数据与计算发展前沿 2019, 1 (1): 2-10. DOI: 10.11871/jfdc.issn.2096.742X.2019.01.002

摘要（2142）

HTML （320）

PDF（pc）（7745KB）（1267）

【目的】为表明数据与计算平台在科学研究活动中的重要驱动作用,本文研究了数据、计算以及科学研究的发展与本质。【方法】本文简述了数据技术和计算技术的发展,通过拓扑材料计算、计算化学、引力波发现、黑洞成像和半监督学习图像识别等典型案例,表明了在各领域科研活动中,数据与计算平台极大地拓展了科学研究的深度和广度,为当代科学研究提供了新的手段与方法。【结果】本文认为摩尔定律的驱动、大数据爆炸式的增长以及人工智能的再次蓬勃发展,都和数据与计算技术的发展呈现密不可分的关系。【结论】以大数据、人工智能技术为代表的数据与计算平台将作为科学研究一种独立、不可或缺的投入要素,融入科学研究活动的全过程,数据与计算平台将成为世界各国驱动现代科学研究发展的重要基础设施。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 大数据基础理论与系统关键技术浅析 ^*

华强胜,郑志高,胡振宇,钟芷漫,林昌富,赵峰,金海,石宣化

数据与计算发展前沿 2019, 1 (1): 22-34. DOI: 10.11871/jfdc.issn.2096.742X.2019.01.004

摘要（1778）

HTML （180）

PDF（pc）（10220KB）（1278）

【目的】本文主要就大数据基础理论及系统相关研究背景、技术架构和关键技术展开介绍,并结合技术发展趋势提出未来研究和技术发展方向。【方法】本文在简要介绍大数据处理基础理论的基础上,从面向数据并行的大数据处理技术、RDF (Resource Description Framework)图数据的查询与匹配、大数据分析技术三个方面简要介绍了大数据系统的关键技术。【结果】未来数据产生的速度将进一步提高,在这种应用背景下,如何在设备端进行快速的数据处理成为一种趋势。【结论】未来,我们将在继续关注大数据基础理论与系统关键技术的基础上,引入边缘计算、雾计算等场景,研究物联网环境下的大数据处理。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 应用驱动的大数据与人工智能融合平台建设

康波,夏梓峻,孟祥飞

数据与计算发展前沿 2019, 1 (1): 35-45. DOI: 10.11871/jfdc.issn.2096.742X.2019.01.005

摘要（1890）

HTML （170）

PDF（pc）（12472KB）（1176）

【目的】介绍了面向产业需求的大数据与人工智能融合平台建设思路,形成了推动传统产业智能化、智能科技产业化的发展实施方案,为计算创新驱动提供参考。【方法】基于面向行业应用场景的数据特征理解和融合平台需求分析,阐述了基于应用驱动的超级计算与大数据、云计算、人工智能、物联网融合的平台层次结构,在基础融合环境、数据整合框架、业务系统几个方面系统介绍了该融合平台的体系架构和实现。【结果】基于该平台,实现了在装备制造、网联汽车、医疗健康等领域的典型应用,具备较好的适用性。【局限】作为公共开源开放平台提供服务,机构公信力、数据安全性是其下一步需要解决的重要问题。【结论】应用驱动的大数据与人工智能融合平台可作为社会开发、政府可控的智能产业科学发展生态的重要组成部分,进一步解决我国智能产业领域创新能力和创新支撑平台不足的现实问题。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 面向大规模数据的科学可视化系统GPVis

单桂华,刘俊,李观,高阳,徐涛,田东

数据与计算发展前沿 2019, 1 (1): 46-62. DOI: 10.11871/jfdc.issn.2096.742X.2019.01.006

摘要（1833）

HTML （121）

PDF（pc）（43072KB）（1086）

【目的】为解决大规模科学数据可视化所面临的一系列问题,提供一套灵活可扩展的科学数据可视化框架,本文设计并实现一种面向大规模数据的科学可视化系统GPVis。【方法】本文基于科学数据可视化在方法和工具层面所面临的挑战和机遇进行了分析,结合数据预组织、图形渲染、高性能计算、人机交互、VR/AR等相关的先进技术,提出了新型的可视化计算及服务框架。【结果】针对常用的可视化方法,本文提出了适用于GPVis框架的可视化处理模式,并列举了多个该可视化框架系统在典型领域的应用案例的具体方法及结果,实现并满足了科学研究人员在数据分析中的可视化需求。【局限】GPVis在智能分析方面还有待进一步提升,未来将与人工智能技术更紧密结合。【结论】GPVis提供了强大且可扩展的大规模科学数据可视化的平台框架,可以针对不同的数据类型及应用需求进行灵活的组件设计,随着系统在框架结构及可视化算法上的不断发展完善,将在更多的科学领域得到应用。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. Angel ⁺ : 基于Angel的分布式机器学习平台

张智鹏,江佳伟,余乐乐,崔斌

数据与计算发展前沿 2019, 1 (1): 63-72. DOI: 10.11871/jfdc.issn.2096.742X.2019.01.007

摘要（1554）

HTML （127）

PDF（pc）（8750KB）（1235）

【目的】随着大数据时代的来临,数据变得高维、稀疏,机器学习模型也变得复杂、高维,因此也给分布式机器学习系统带来了很多挑战。尽管研究人员已经开发了很多高性能的机器学习系统,比如TensorFlow、 PyTorch、XGBoost等,但是这些系统存在以下两个问题：（1）不能与现有的大数据系统很好的结合;（2）不够通用,这些系统往往是为了某一类机器学习算法设计。【方法】为了解决以上两个挑战,本文介绍Angel ⁺：一个基于参数服务器架构的分布式机器学习平台。【结果】Angel ⁺能够高效的支持现有的大数据系统以及机器学习系统——依赖于参数服务器处理高维模型的能力,Angel ⁺能够以无侵入的方式为大数据系统（比如Apache Spark）提供高效训练超大机器学习模型的能力,并且高效的运行已有的分布式机器学习系统（比如PyTorch）。此外,针对分布式机器学习中通信开销大和掉队者问题,Angel ⁺ 也提供了模型平均、梯度压缩和异构感知的随机梯度下降解法等。【结论】笔者结合Angel ⁺开发了很多高效、易用的机器学习模型,并且通过实验验证了Angel ⁺平台的高效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 联邦型RDF数据管理系统综述

彭鹏,邹磊

数据与计算发展前沿 2019, 1 (1): 73-81. DOI: 10.11871/jfdc.issn.2096.742X.2019.01.008

摘要（1778）

HTML （103）

PDF（pc）（7483KB）（965）

【目的】资源描述框架（Resource Description Framework,英文简写RDF）作为一个知识表示的模型,已经被广泛地用在各种科学数据管理的应用中来表示知识图谱。同时,SPARQL（Simple Protocol And RDF Query Language）作为一种结构化查询语言则被用来支持对RDF知识图谱数据进行查询检索。随着越来越多的数据提供者将他们的数据表示成RDF知识图谱形式,如何将不同数据提供者“自治”的RDF知识图谱数据整合成一个“联邦型RDF数据管理系统”就成为一个挑战。【文献范围】本文对现有不同的联邦型RDF数据管理系统进行综述。【方法】不同联邦型RDF数据管理系统之间主要的区别体现在查询分解与数据源选择策略以及查询处理与优化策略。【结果】目前联邦型RDF数据管理系统的查询分解与数据源选择策略可以分成基于元数据的策略和基于ASK查询的策略;而联邦型RDF数据管理系统的查询处理与优化策略是在System-R 式动态规划的基础上提出了若干优化连接策略。【局限】目前联邦型RDF数据管理系统尚未研究如何支持SPARQL 1.1。【结论】联邦型RDF数据管理系统可以支持分布在多数据源知识图谱数据的整合,是未来知识图谱数据管理的一个重要研究方向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

7. SKS：一种科技领域大数据知识图谱平台 ^*

周园春,常青玲,杜一

数据与计算发展前沿 2019, 1 (1): 82-93. DOI: 10.11871/jfdc.issn.2096.742X.2019.01.009

摘要（2253）

HTML （182）

PDF（pc）（11789KB）（1594）

【目的】科技领域大数据知识图谱致力于为科研工作者提供更精准、更全面、更有深度和广度的检索与分析结果,进而为学科研究提供切实的、有价值的参考。【文献范围】文章重点调研国内外基于数据的科技评估方法、基于知识图谱的交叉学科研究,以及知识图谱构建中的关键技术方法和基于领域知识的知识图谱建设应用等。【方法】本文给出一种科技领域大数据知识图谱平台SKS,基于SKS平台的整体架构,阐述构建科技领域知识图谱的关键技术及平台工具,并给出相关关键技术及平台在不同领域的应用。【结果】SKS平台及应用在为相关领域构建资源知识管理系统的同时,为科研人员提供了精准的、多维的、相互关联的智能检索服务。【局限】科技领域大数据知识图谱在不断发展中,数据质量（数据源自身质量及数据融合产生的误差）在一定程度上影响了平台的应用效果,未来希望在数据消歧方面进行更多的探索。【结论】科技领域大数据知识图谱以其较强的语义处理能力和关系发掘能力,较好的组织了科技领域的人员、机构、成果、事件等海量异质异构数据,为科技评估提供辅助功能,其在具体项目中的应用效果均获得领域专家的认可。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 大数据3.0—— 后Hadoop时代大数据的核心技术

刘汪根,孙元浩

数据与计算发展前沿 2019, 1 (1): 94-104. DOI: 10.11871/jfdc.issn.2096.742X.2019.01.010

摘要（2180）

HTML （210）

PDF（pc）（11457KB）（1310）

【目的】以Hadoop为代表的第一代大数据技术架构存在过于复杂、性能不足,以及与云计算不能很好结合等问题,因此星环科技重新设计了大数据技术栈。【方法】设计了资源调度层来管理各种生命周期的服务和任务;抽象出了统一存储管理层,通过插拔不同的存储引擎来实现对不同类型数据的需求;通过统一的基于DAG的计算引擎来支持多种计算负载;在开发层提供标准的SQL和Python接口。【结果】使用Kubernetes技术统一管理数据服务和容器技术实现更好的多租户能力,打通大数据和业务之间的衔接,从而更好的实现数据业务化和业务数据化,也在大规模商用中得到了验证。【结论】通过对大数据架构的重新设计,不仅有效的解决了第一代大数据实现的技术问题,而且更好的与云计算和新型硬件技术结合,可以代表新一代大数据基础技术栈的发展方向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

9. 飞桨：源于产业实践的开源深度学习平台

马艳军,于佃海,吴甜,王海峰

数据与计算发展前沿 2019, 1 (1): 105-115. DOI: 10.11871/jfdc.issn.2096.742X.2019.01.011

摘要（7463）

HTML （758）

PDF（pc）（7401KB）（3572）

【目的】深度学习是近年来人工智能取得突破的驱动性核心技术,深度学习框架也被称作智能时代的操作系统,本文对国内唯一功能完备的开源深度学习平台飞桨（PaddlePaddle）进行了系统性介绍。【方法】首先介绍深度学习框架的发展历程,并概述飞桨深度学习平台的技术全景和生态建设进展,然后详细介绍飞桨核心框架的关键技术,包括前端语言、组网编程范式、核心架构图、算子库以及高效率计算核心五个部分。【结果】飞桨经过多年来产业实践中持续迭代创新,已经在超大规模分布式训练、多端高速推理等方面形成了独特的优势。【结论】系统性总结飞桨的主要创新点并对未来发展趋势进行展望。

图表 | 参考文献 | 相关文章 | 多维度评价

热点论文