溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

spark: RDD與DataFrame之間的相互轉換方法

發布時間：2020-08-19 13:20:52 來源：腳本之家閱讀：218 作者：birdlove1987 欄目：開發技術

DataFrame是一個組織成命名列的數據集。它在概念上等同于關系數據庫中的表或R/Python中的數據框架，但其經過了優化。DataFrames可以從各種各樣的源構建，例如：結構化數據文件，Hive中的表，外部數據庫或現有RDD。

DataFrame API 可以被Scala，Java，Python和R調用。

在Scala和Java中，DataFrame由Rows的數據集表示。

在Scala API中，DataFrame只是一個類型別名Dataset[Row]。而在Java API中，用戶需要Dataset<Row>用來表示DataFrame。

在本文檔中，我們經常將Scala/Java數據集Row稱為DataFrames。

那么DataFrame和spark核心數據結構RDD之間怎么進行轉換呢？

代碼如下：

# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row

if __name__ == "__main__":
 # 初始化SparkSession
 spark = SparkSession \
 .builder \
 .appName("RDD_and_DataFrame") \
 .config("spark.some.config.option", "some-value") \
 .getOrCreate()

 sc = spark.sparkContext

 lines = sc.textFile("employee.txt")
 parts = lines.map(lambda l: l.split(","))
 employee = parts.map(lambda p: Row(name=p[0], salary=int(p[1])))

 #RDD轉換成DataFrame
 employee_temp = spark.createDataFrame(employee)

 #顯示DataFrame數據
 employee_temp.show()

 #創建視圖
 employee_temp.createOrReplaceTempView("employee")
 #過濾數據
 employee_result = spark.sql("SELECT name,salary FROM employee WHERE salary >= 14000 AND salary <= 20000")

 # DataFrame轉換成RDD
 result = employee_result.rdd.map(lambda p: "name: " + p.name + " salary: " + str(p.salary)).collect()

 #打印RDD數據
 for n in result:
 print(n)

spark: RDD與DataFrame之間的相互轉換方法

以上這篇spark: RDD與DataFrame之間的相互轉換方法就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持億速云。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
JavaScript使用atan2來繪制箭頭和曲線的實例
下一篇新聞：
c語言兩字符串交叉合并實例

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女