首页 理论教育 实践集群模式下的union、join、reduce和lookup方法

实践集群模式下的union、join、reduce和lookup方法

时间:2023-06-20 理论教育 版权反馈
【摘要】:读取HDFS上的“README.md”文件,执行groupByKey操作,使用collect操作返回一个单机数组。用parallelize方法从Scala的集合生成两个RDD,对RDD进行join操作,并用col-lect操作返回一个单机数组。用parallelize方法使Scala的集合生成一个键值对RDD,对RDD进行lookup操作。可以用toDeubgString方法调试程序。有时候一个操作方法产生的不止是一个RDD,在这个过程中,可能系统内部已经生成了其他的RDD。比如在reduce-ByKey操作的过程中,一共连续产生了MapPartitionRDD、ShuffledRDD和MapPartitionRDD三个RDD,而一般我们只看到了最后产生的MapPartitionRDD。

实践集群模式下的union、join、reduce和lookup方法

(1)用parallelize方法从Scala的集合生成两个RDD,对RDD进行union操作,并用collect操作返回一个单机数组

(2)读取HDFS上的“README.md”文件,执行groupByKey操作,使用collect操作返回一个单机数组。

(3)用parallelize方法从Scala的集合生成两个RDD,对RDD进行join操作,并用col-lect操作返回一个单机数组。

(4)用parallelize方法使Scala的集合生成一个RDD,对RDD进行reduce操作(reduce本身是一个action操作)。(www.xing528.com)

(5)用parallelize方法使Scala的集合生成一个键值对RDD,对RDD进行lookup操作(lookup本身是一个action操作)。

(6)可以用toDeubgString方法调试程序。toDebugString方法是一个常用的调试程序的工具方法,通过它可以很清晰地查看到RDD之间的相互依赖关系。有时候一个操作方法产生的不止是一个RDD,在这个过程中,可能系统内部已经生成了其他的RDD。比如在reduce-ByKey操作的过程中,一共连续产生了MapPartitionRDD、ShuffledRDD和MapPartitionRDD三个RDD,而一般我们只看到了最后产生的MapPartitionRDD。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈