校招刷题群
高效刷题 迎战校招
校招精选试题
近年面笔经面经群内分享
Java刷题群 前端刷题群 产品运营群
首页 > 开源框架 > spark
题目

spark中的RDD是什么,有哪些特性?

解答

RDD (Resilient Distributed Dataset)叫做分布式数据集,是spark中 最基本的数据抽象,它代表一个不可变, 可分区, 里面的元素可以并行计算的集合

Dataset:就是一个集合,用于存放数据的
Destributed:分布式,可以并行在集群计算
Resilient:表示弹性的,弹性表示

1.RDD中的数据可以存储在内存或者磁盘中
2.RDD中的分区是可以改变的

五大特性:
1.A list of partitions:一个分区列表,RDD中的数据都存储在一个分区列表中
2.A function for computing each split:作用在每一个分区中的函数
3.A list of dependencies on other RDDs::一个RDD依赖于其他多个RDD,这个点很重要,RDD的容错机制就是依据这个特性而来的
4.Optionally,a Partitioner for key-value RDDs(eg:to say that the RDD is hash-partitioned):可选的,针对于kv类型的RDD才有这个特性,作用是决定了数据的来源以及数据处理后的去向
5.可选项,数据本地性,数据位置最优

C 1条回复 评论
杨微粒

认真看完了,浅显易懂,学习到了。

发表于 2023-03-30 23:00:00
0 0