彈性分布式數據集(RDD)是一組不可變的JVM對象的分布集,可以用于執行高速運算,它是Apache Spark的核心。
在pyspark中獲取和處理RDD數據集的方法如下:
1. 首先是導入庫和環境配置(本測試在linux的pycharm上完成)
import os from pyspark import SparkContext, SparkConf from pyspark.sql.session import SparkSession os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" conf = SparkConf().setAppName('test_rdd') sc = SparkContext('local', 'test', conf=conf) spark = SparkSession(sc)
2. 然后,提供hdfs分區數據的路徑或者分區表名
txt_File = r"hdfs://host:port/apps/hive/warehouse/數據庫名.db/表名/分區名/part-m-00029.deflate" # part-m-00029.deflate
# txt_File = r"hdfs://host:port/apps/hive/warehouse/數據庫名.db/表名" # hive table
3. sc.textFile進行讀取,得到RDD格式數據<還可以用 spark.sparkContext.parallelize(data) 來獲取RDD數據>,參數中還可設置數據被劃分的分區數
txt_ = sc.textFile(txt_File)
4. 基本操作:
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。