当前位置:新励学网 > 秒知问答 > spark之RDD详解----五大特性

spark之RDD详解----五大特性

发表时间:2024-07-08 11:43:33 来源:网友投稿

sparkGithub:https://github.com/apache/spark/RDD:让开发者大大降低开发分布式应用程序的门槛以及执行效率。

RDD源码:https://github.com/apache/spark/tree/master/core/src/main/scala/org/apache/spark/rdd

弹性:代表着spark在分布式计算的时候,可以容错---计算层面分布式:把一份数据拆分成多份,在各个节点上并行的运行,他们之间没有任何的依赖关系数据集:一个文件就是一个数据集

partitionedcollectionofelements:数据可以拆分成分区thatcanbeoperatedoninparallel.:每个分区的内容可以并行的被操作解释:RDD(1,2,3,4,5,6,7,8,9)假如需要+1那么数据被分成三个分区,只要每个分区上的内容都执行+1的操作就可以Hadoop001:(1,2,3)+1Hadoop002:(4,5,6)+1Hadoop003:(7,8,9)+1

@transientprivatevarsc:SparkContext,@transientprivatevardeps:Seq[Dependency[]])extendsSerializablewithLogging{

(1)抽象类:RDD必然是由子类实现的,我们使用的直接使用其子类即可(2)Serializable:可以序列化(3)Logging:spark1.6可以使用,spark2.0之后不可以使用(4)T:存储各种数据类型(5)SparkContext(6)@transient

大数据里面一般是移动数据不是移动计算,所以数据本地化计算这样性能更高。

defcompute(split:Partition,context:TaskContext):Iterator[T]RDD计算是对RDD里面的分区做计算,所以传入split:Partition对应的RDD特点第二点

protecteddefgetPartitions:Array[Partition]:拿到分区,RDD是由一系列的分区构成,所以得到的一定是分区Array[Partition]对应着第一大特点......

免责声明:本站发布的教育资讯(图片、视频和文字)以本站原创、转载和分享为主,文章观点不代表本网站立场。

如果本文侵犯了您的权益,请联系底部站长邮箱进行举报反馈,一经查实,我们将在第一时间处理,感谢您对本站的关注!