在Spark中,可以使用selectExpr
方法結合SQL函數來進行數據格式轉換。以下是一個示例:
假設我們有一個名為data
的DataFrame,其中包含兩列:id
和value
。我們想要將value
列的數據類型從字符串轉換為整數??梢允褂靡韵麓a:
from pyspark.sql import SparkSession
# 創建Spark會話
spark = SparkSession.builder \
.appName("Data Format Conversion") \
.getOrCreate()
# 創建示例DataFrame
data = [(1, "100"), (2, "200"), (3, "300")]
columns = ["id", "value"]
data_frame = spark.createDataFrame(data, columns)
# 使用selectExpr進行數據格式轉換
converted_data_frame = data_frame.selectExpr("id", "CAST(value AS INT)")
# 顯示轉換后的DataFrame
converted_data_frame.show()
在這個示例中,我們使用selectExpr
方法,將value
列的數據類型從字符串轉換為整數。CAST
函數用于執行類型轉換。最后,我們使用show
方法顯示轉換后的DataFrame。