Spark

By | 2018年11月27日
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_34100655/article/details/82430147

Spark

目前流行的大数据处理场景,可将其分为如下三种:

  • 复杂的批量数据处理,耗时数十分钟到数小时;
  • 基于历史数据的交互式查询,耗时数十秒到数分钟;
  • 基于实时数据流的数据处理,耗时数百毫秒到数秒;

Spark生态的目标,是将以上三者融合到一个软件栈当中。


组成部件

  • Shark/Shark SQL
  • Spark Streaming
  • Graphx
  • MLlib
  • Tachyon

学习资料

  • 官网文档:纵观全网,Spark的资料并不是很全很多;

Demo

  1. https://blog.csdn.net/dataastron/article/details/78898106
  2. http://doc.okbase.net/867090/archive/126444.html
  3. http://www.360doc.com/content/18/0125/17/52230779_725047979.shtml


发表评论