数据与计算发展前沿 ›› 2019, Vol. 1 ›› Issue (1): 22-34.doi: 10.11871/jfdc.issn.2096.742X.2019.01.004

所属专题: “数据与计算平台”专刊

• • 上一篇    下一篇

大数据基础理论与系统关键技术浅析 *

华强胜1,2,3,4,郑志高1,2,3,4,胡振宇1,2,3,4,钟芷漫1,2,3,4,林昌富1,2,3,4,赵峰1,2,3,4,金海1,2,3,4,石宣化1,2,3,4   

  1. 1. 大数据技术与系统国家地方联合工程研究中心,湖北 武汉 430074
    2. 服务计算技术与系统教育部重点实验室,湖北 武汉 430074
    3. 集群与网格计算湖北省重点实验室,湖北 武汉 430074
    4. 华中科技大学计算机科学与技术学院,湖北 武汉 430074
  • 收稿日期:2019-08-30 出版日期:2019-01-20 发布日期:2019-10-09
  • 作者简介:华强胜,1979年生,博士,华中科技大学计算机学院副教授,博士生导师。主要研究方向为分布式计算理论与算法,算法与体系结构协同设计。
    本文承担工作为:大数据基础理论分析与讨论以及全文统筹。
    Hua Qiangsheng, PhD, was born in 1979. He is an associate professor in School of Computer Science and Technology, Huazhong University of Science and Technology. His research interests include distributed computing theory and algorithms, co-design of algorithms and computer architecture.
    Role in this paper: Responsible for writing the big data theory part and the paper organization.
    E-mail: qshua@hust.edu.cn|郑志高,1988年生,华中科技大学计算机学院博士生。主要研究方向为并行与分布式计算、大数据系统。
    本文承担工作为:文献调研与回顾,全文整理与撰写。|胡振宇,1996年生,华中科技大学计算机学院硕士生。主要研究方向为内存计算,大数据系统。
    本文承担工作为:面向数据并行的大数据处理技术分析与讨论。|钟芷漫,1997年生,华中科技大学计算机学院硕士研究生,主要研究方向为自然语言处理,词向量。
    本文承担工作为:RDF图数据查询与匹配关键技术分析与讨论。|林昌富,1993年生,华中科技大学计算机学院博士生。主要研究方向为分布式流处理系统。
    本文承担工作为:分布式流处理系统关键技术分析与讨论。|赵峰,博士,华中科技大学计算机学院教授,博士生导师。主要研究方向为知识图谱、信息检索、数据挖掘、自然语言处理。
    本文承担工作为:面向文档过滤的语言模型分析与讨论。|金海,1966年生,博士,华中科技大学计算机学院教授,博士生导师,CCF 会士,IEEE 会士。主要研究方向为并行与分布式计算。
    本文承担工作为:全文统筹以及大数据关键技术分析与讨论。
    Jin Hai, PhD, was born in 1966. He is a professor and PhD supervisor in School of Computer Science and Technology, Huazhong University of Science and Technology. He is a CCF Fellow and an IEEE Fellow. His research interests are on parallel and distributed computing.
    Role in this paper: Responsible for coordinating the paper writing and attending technical discussion on technologies for big data.
    E-mail:hjin@hust.edu.cn|石宣化,1978年生,博士,华中科技大学计算机学院教授,博士生导师。主要研究方向为大数据以及并行与分布式计算。
    本文承担工作为:大数据分析与处理关键技术分析与讨论。
  • 基金资助:
    *国家重点研发计划云计算与大数据重点专项(2018YFB1003203);国家自然科学基金面上项目(61572216)

A Brief Review of Theory and Systematic Technologies for Big Data

Qiangsheng Hua1,2,3,4,Zhigao Zheng1,2,3,4,Zhenyu Hu1,2,3,4,Zhiman Zhong1,2,3,4,Changfu Lin1,2,3,4,Feng Zhao1,2,3,4,Hai Jin1,2,3,4,Xuanhua Shi1,2,3,4   

  1. 1. National Engineering Research Center for Big Data Technology and System, Wuhan, Hubei 430074, China
    2. Services Computing Technology and System Lab, Wuhan, Hubei 430074, China
    3. Cluster and Grid Computing Lab, Wuhan, Hubei 430074, China
    4. School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan, Hubei 430074, China
  • Received:2019-08-30 Online:2019-01-20 Published:2019-10-09

摘要:

【目的】本文主要就大数据基础理论及系统相关研究背景、技术架构和关键技术展开介绍,并结合技术发展趋势提出未来研究和技术发展方向。【方法】本文在简要介绍大数据处理基础理论的基础上,从面向数据并行的大数据处理技术、RDF (Resource Description Framework)图数据的查询与匹配、大数据分析技术三个方面简要介绍了大数据系统的关键技术。【结果】未来数据产生的速度将进一步提高,在这种应用背景下,如何在设备端进行快速的数据处理成为一种趋势。【结论】未来,我们将在继续关注大数据基础理论与系统关键技术的基础上,引入边缘计算、雾计算等场景,研究物联网环境下的大数据处理。

关键词: 低复杂度算法, 数据并行, QoS机制技术, 图数据处理, 语言模型

Abstract:

[Objective] The article mainly gives a brief review for big data theory and systems, including the research background, the technical architecture and the key technologies following by estimating future research directions. [Method] On the basis of the brief introduction of the big data processing theory, this paper introduces the key technologies for big data systems by the three aspects: the data parallel processing methods, the Resource Description Framework (RDF) graph data query and matching, and the big data analysis technologies. [Results] The speed of data generation will be accelerated further more in near future, thus how to quickly process the data on the edge side would lead a research trend. [Conclusion] In the future, developing new technologies for big data theory and systems still warrant further attention, on which the researches on data processing by edge computing and fog computing in the scenario of Internet of Things era highlight based.

Key words: low complexity algorithms, data parallelism technologies, QoS mechanism, graph data processing, language model