数据与计算平台是驱动当代科学研究发展的重要基础设施
廖方宇,洪学海,汪洋,褚大伟

The Data and Computing Platform Is An Important Infrastructure Which Drives Modern Scientific Research Development
Fangyu Liao,Xuehai Hong,Yang Wang,Dawei Chu
表1 大数据计算模式和工具
Table 1 Patterns and tools of big data
大数据计算模式 关键技术 存储体系 计算模型 计算平台 代表产品
批处理计算 Pig ZooKeeper Hive HDFS Mahout yarn GFS HDFS NoSQL MapReduce Hadoop Azure InfoSphere MapReduce
查询分析计算 HBase Hive Stinger Impala, Shark, Presto Hadoop Cassandra Dremel
图计算 数据融汇、图分割 GFS HDFS NoSQL BSP Hadoop Google Hama Pregel
流计算 Tuple/Bolt/Topology HDFS GFS 流计算模型 Storm S4 Storm S4
交互式计算 Hash表、列存储结构 GFS HDFS NoSQL MapReduce +算法 Hadoop Google Dremel Drill
PowerDrill
迭代计算 Spark Twister 基于内存的RDD数据集模型 Spark Spark
内存计算 内存数据库、列存储格式、读写分离 集中式存储 大内存计算 Spark HANA Spark HANA