梳理bigdata大数据工具,及其定位

Posted by onceme on Tuesday, January 15, 2019

TOC

最近准备对分布式以及大数据相关领域做个整体梳理,包括被誉为开创大数据行业的谷歌『三驾马车』论文,开源社区基于这三篇论文的产品实现及其衍化

谷歌老三篇分别是
  • google file system: 分布式文件系统
  • google bigtable: 半结构化分布式数据存储
  • map reduce编程模型: 分布式计算思想的核心
在谷歌04年发表这三篇论文后,开源社区据此演化出了相关产品实现
  • HDFS 对应于GFS论文 分布式文件系统
  • HBase 对应于Bigtable的 分布式数据存储系统
  • map reduce 对于与同名论文的分布式计算框架
在后来开源社区及大数据相关厂商又演化出来新的计算框架
  • Hive 支持以sql方式对大数据进行分析查询,避免了对每个查询分析任务都要写map reduce模式程序的成本,很大程度上降低了大数据的应用门槛
  • Spark 大大提高了分布式计算的运行速度
  • storm
  • flink 实时的流失分布式计算
  • blink

comments powered by Disqus
Ï