TOC
最近准备对分布式以及大数据相关领域做个整体梳理,包括被誉为开创大数据行业的谷歌『三驾马车』论文,开源社区基于这三篇论文的产品实现及其衍化
谷歌老三篇分别是
- google file system: 分布式文件系统
- google bigtable: 半结构化分布式数据存储
- map reduce编程模型: 分布式计算思想的核心
在谷歌04年发表这三篇论文后,开源社区据此演化出了相关产品实现
- HDFS 对应于GFS论文 分布式文件系统
- HBase 对应于Bigtable的 分布式数据存储系统
- map reduce 对于与同名论文的分布式计算框架
在后来开源社区及大数据相关厂商又演化出来新的计算框架
- Hive 支持以sql方式对大数据进行分析查询,避免了对每个查询分析任务都要写map reduce模式程序的成本,很大程度上降低了大数据的应用门槛
- Spark 大大提高了分布式计算的运行速度
- storm
- flink 实时的流失分布式计算
- blink
comments powered by Disqus