当前位置：新励学网 > 秒知问答 > spark之RDD详解----五大特性

spark之RDD详解----五大特性

发表时间：2024-07-08 11:43:33 来源：网友投稿

sparkGithub:https://github.com/apache/spark/RDD：让开发者大大降低开发分布式应用程序的门槛以及执行效率。

RDD源码：https://github.com/apache/spark/tree/master/core/src/main/scala/org/apache/spark/rdd

弹性：代表着spark在分布式计算的时候，可以容错---计算层面分布式：把一份数据拆分成多份，在各个节点上并行的运行，他们之间没有任何的依赖关系数据集：一个文件就是一个数据集

partitionedcollectionofelements：数据可以拆分成分区thatcanbeoperatedoninparallel.：每个分区的内容可以并行的被操作解释：RDD（1,2,3,4,5,6,7,8,9）假如需要+1那么数据被分成三个分区，只要每个分区上的内容都执行+1的操作就可以Hadoop001：(1,2,3)+1Hadoop002:(4,5,6)+1Hadoop003：(7,8,9)+1

@transientprivatevarsc:SparkContext,@transientprivatevardeps:Seq[Dependency[]])extendsSerializablewithLogging{

(1)抽象类:RDD必然是由子类实现的，我们使用的直接使用其子类即可(2)Serializable:可以序列化(3)Logging：spark1.6可以使用，spark2.0之后不可以使用(4)T:存储各种数据类型(5)SparkContext(6)@transient

大数据里面一般是移动数据不是移动计算，所以数据本地化计算这样性能更高。

defcompute(split:Partition,context:TaskContext):Iterator[T]RDD计算是对RDD里面的分区做计算，所以传入split:Partition对应的RDD特点第二点

protecteddefgetPartitions:Array[Partition]：拿到分区，RDD是由一系列的分区构成，所以得到的一定是分区Array[Partition]对应着第一大特点......

免责声明：本站发布的教育资讯（图片、视频和文字）以本站原创、转载和分享为主，文章观点不代表本网站立场。

如果本文侵犯了您的权益，请联系底部站长邮箱进行举报反馈，一经查实，我们将在第一时间处理，感谢您对本站的关注！