RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可 分区、里面的元素可并行计算的集合。 Dataset:一个数据集合,用于存放数据的。 Distributed:RDD中的数据是分布式存储的,可用于分布式计算。 Resilient:RDD中的数据可以存储在内存中或者磁盘中。本栏目推荐文章RDD的五大特性RDD定义Spark与RDD是什么【大数据】RDD1. Spark RDDDataFrame的代码构建-基于RDD方式RDDSpark RDD惰性计算的自主优化大数据技术Spark之RDD基础编程Scala迭代器与RDD五大属性RDDspark rdd 特性rdd 数据rdd 惰性spark rdd 算子 概念spark rdd 属性scala rdd python spark rdd dataframe代码 方式rdd 算子transformation spark rdd 算子action spark rdd