在Python中使用Apache Spark進行數據分析時,主要使用PySpark庫。以下是一些常用的PySpark語法:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("Python Spark Data Analysis") \
.getOrCreate()
# 從CSV文件中讀取數據
df = spark.read.csv("data.csv", header=True, inferSchema=True)
# 從JSON文件中讀取數據
df = spark.read.json("data.json")
# 從Parquet文件中讀取數據
df = spark.read.parquet("data.parquet")
df.show()
# 選擇特定列
selected_columns = df[["column1", "column2"]]
# 過濾條件
filtered_df = df.filter(df["column1"] > 100)
# 排序
sorted_df = df.sort(df["column1"].desc())
# 分組
grouped_df = df.groupBy("column1")
# 聚合函數
aggregated_df = grouped_df.agg({"column2": "sum", "column3": "mean"})
# 連接兩個DataFrame
joined_df = df1.join(df2, on="common_column")
# 緩存DataFrame
df.cache()
# 持久化DataFrame
df.persist(StorageLevel.MEMORY_ONLY)
spark.stop()
這些只是PySpark中的一些基本語法,實際的數據分析過程可能涉及更多的操作和技巧。建議查閱官方文檔以獲取更詳細的信息和示例。