Spark与Hadoop 两者区别 Spark采用fork线程的方式,而Hadoop采用创建新进程的方式 Spark只在Shuffle的时候将数据写入磁盘,而Hadoop中多个MR作业之间交互都依赖磁盘 Spark的缓存机制比HDFS更加高效 由于Spark在实际生产环境中可能会受到内存资源不足的影响,所以Spark并不能完全替代Hadoop。