数据与计算平台是驱动当代科学研究发展的重要基础设施
|
廖方宇,洪学海,汪洋,褚大伟
|
The Data and Computing Platform Is An Important Infrastructure Which Drives Modern Scientific Research Development
|
Fangyu Liao,Xuehai Hong,Yang Wang,Dawei Chu
|
|
表1 大数据计算模式和工具
|
Table 1 Patterns and tools of big data
|
|
大数据计算模式 | 关键技术 | 存储体系 | 计算模型 | 计算平台 | 代表产品 | 批处理计算 | Pig ZooKeeper Hive HDFS Mahout yarn | GFS HDFS NoSQL | MapReduce | Hadoop Azure InfoSphere | MapReduce | 查询分析计算 | HBase Hive | Stinger | Impala, Shark, Presto | Hadoop | Cassandra Dremel | 图计算 | 数据融汇、图分割 | GFS HDFS NoSQL | BSP | Hadoop Google | Hama Pregel | 流计算 | Tuple/Bolt/Topology | HDFS GFS | 流计算模型 | Storm S4 | Storm S4 | 交互式计算 | Hash表、列存储结构 | GFS HDFS NoSQL | MapReduce +算法 | Hadoop Google | Dremel Drill PowerDrill | 迭代计算 | Spark | Twister | 基于内存的RDD数据集模型 | Spark | Spark | 内存计算 | 内存数据库、列存储格式、读写分离 | 集中式存储 | 大内存计算 | Spark HANA | Spark HANA |
|
|
|