在Apache Spark中,sortBy是一種對數據進行排序的方法
saveAsTextFile或saveAsHadoopFile等方法將結果保存到HDFS或其他分布式文件系統中。例如:sorted_data = sorted_rdd.sortBy(lambda x: x[1])
sorted_data.saveAsTextFile("hdfs://localhost:9000/output")
textFile或hadoopFile方法從HDFS或其他分布式文件系統中讀取數據。例如:from pyspark import SparkContext
sc = SparkContext("local", "DataRecoveryApp")
sorted_data = sc.textFile("hdfs://localhost:9000/output")
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("DataRecoveryApp")
sc = SparkContext(conf=conf)
sorted_data = sc.textFile("hdfs://localhost:9000/output")
result = sorted_data.map(lambda line: line.split(",")).collect()
for r in result:
print(r)
這樣,你就可以從sortBy操作中恢復數據并進行進一步處理了。請注意,這里的示例代碼是基于PySpark的,如果你使用的是Scala或Java版本的Spark,語法可能略有不同。