大数据3.0—— 后Hadoop时代大数据的核心技术
刘汪根,孙元浩
Big Data 3.0—The Key Technologies of Big Data in Post-Hadoop Era
Wanggen Liu,Yuanhao Sun
表1
MPP与DAG计算架构对比
Table 1
The architecture comparison of MPP and DAG
技术点
MPP
DAG
SQL编译与优化
依赖单机数据库的SQL能力
自研SQL编译器
数据存储
Share nothing架构
共享分布式存储架构
元数据信息
比较有限的meta信息,全局的计算任务的优化有难度
有全局的meta信息,可以更好地协调executor之间的数据通信、任务启停
Shard内性能
本地库的执行速度高,理论上是DAG的上限
可以通过执行器、Codegen等技术来优化性能
容错性
依赖各个数据库完成切分任务,因此容错性不足
共享数据存储,Task的设计上可以简单、有幂等性,更好容错
数据通信性能
依赖数据分布来减少数据通信的性能损耗,因此不灵活
依赖全局的数据元信息来减少通信的性能损耗,更加灵活
核心优势
优化器成熟,本地执行性能更好
灵活性、容错性更高,能够更好的减少数据通信消耗
劣势
总体性能依赖业务特性和数据分布
部分MPP的可扩展性方面还需要提高
SQL、事务、优化器等仍需持续改进
基本逼近MPP的性能