什么是Spark? 关于Spark具体的定义,大家可以去阅读官网或者百度关于Spark的词条,在此不再赘述.从一个野生程序猿的角度去理解,作为大数据时代的一个准王者,Spark是一款主流的高性能分布式计算大数据框架之一,和MapReduce,Hive,Flink等其他大数据框架一起支撑了大数据处理方案的一片天空.笔者所在的公司,集群里面有数千台高配机器搭载了Spark(还有Hive和Flink),用来处理千亿万亿级别的大数据.黑体字内容基本就是对Spark的一个概括. 什么是RDD? 套用一段关…