溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

常用的action算子

發布時間：2020-09-23 22:06:06 來源：網絡閱讀：762 作者：興趣e族欄目：大數據

action算子簡介

Action類算子也是一類算子（函數）叫做行動算子，如foreach,collect，count等。Transformations類算子是延遲執行，Action類算子是觸發執行。一個application應用程序（就是我們編寫的一個應用程序）中有幾個Action類算子執行，就有幾個job運行。

1.reduce

通過函數func聚集數據集中的所有元素，這個函數必須是關聯性的，確?？梢员徽_的并發執行

scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at makeRDD at <console>:24

scala> rdd1.reduce(_+_)
res3: Int = 55

2.collect

在driver的程序中，以數組的形式，返回數據集的所有元素，這通常會在使用filter或者其它操作后，返回一個足夠小的數據子集再使用

scala> var rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at makeRDD at <console>:24

scala> rdd1.collect
res2: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

3.count

返回數據集的元素個數

scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at makeRDD at <console>:24

scala> rdd1.count
res4: Long = 10

4.first

返回數據集的第一個元素(類似于take(1))

scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at makeRDD at <console>:24

scala> rdd1.first
res5: Int = 1

5.take

返回一個數組，由數據集的前n個元素組成。注意此操作目前并非并行執行的，而是driver程序所在機器

scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[7] at makeRDD at <console>:24

scala> rdd1.take(3)
res6: Array[Int] = Array(1, 2, 3)

6.takeSample(withReplacement,num,seed)

withReplacement:結果中是否可重復
num:取多少個
seed:隨機種子
返回一個數組，在數據集中隨機采樣num個元素組成，可以選擇是否用隨機數替換不足的部分，seed用于指定的隨機數生成器種子
原理
takeSample()函數和sample函數是一個原理,但是不使用相對比例采樣,而是按設定的采樣個數進行采樣,同時返回結果不再是RDD,而是相當于對采樣后的數據進行collect(),返回結果的集合為單機的數組

scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[20] at makeRDD at <console>:24

scala> rdd1.takeSample(true,4,10)
res19: Array[Int] = Array(10, 10, 2, 3)

7.takeOrdered

takeOrdered和top類似，只不過以和top相反的順序返回元素。
top默認倒序，taskOrdered默認正序
top方法其實就是調用的taskOrdered，然后反轉的結果

def top(num: Int)(implicit ord: Ordering[T]): Array[T] = withScope {
    takeOrdered(num)(ord.reverse)
  }

scala> val rdd1 = sc.makeRDD(1 to 10)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[23] at makeRDD at <console>:24

scala> rdd1.top(5)
res22: Array[Int] = Array(10, 9, 8, 7, 6)

scala> rdd1.takeOrdered(5)
res23: Array[Int] = Array(1, 2, 3, 4, 5)

8.saveAsTextFile

saveAsTextFile用于將RDD以文本文件的格式存儲到文件系統中

val conf = new SparkConf()
      .setAppName("saveFile")
      .setMaster("local[*]")

val sc = new SparkContext(conf)

val rdd1: RDD[Int] = sc.parallelize(1 to 10)

rdd1.repartition(1).saveAsTextFile("/tmp/fff")

9.saveAsSequenceFile

saveAsSequenceFile用于將RDD以SequenceFile的文件格式保存到HDFS上。使用方法和saveAsTextFile類似

10.saveAsObjectFile

saveAsObjectFile用于將RDD中的元素序列化成對象，存儲到文件中。使用方法和saveAsTextFile類似

11.countByKey

對(K,V)類型的RDD有效，返回一個(K,Int)對的map，表示每一個可以對應的元素個數

scala> val rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",3)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[3] at makeRDD at <console>:24

scala> rdd1.countByKey
res1: scala.collection.Map[String,Long] = Map(B -> 2, A -> 2, C -> 1)

12.foreach

在數據集的每一個元素上，運行函數func,t通常用于更新一個累加器變量，或者和外部存儲系統做交互

scala> val rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",3)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[9] at makeRDD at <console>:24

scala> rdd1.collect.foreach(println(_))
(A,0)
(A,2)
(B,1)
(B,2)
(C,3)

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
微信小程序 wxParse插件顯示視頻問題
下一篇新聞：
微信小程序實現的一鍵連接wifi功能示例

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女