溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Pyspark如何讀取parquet數據

發布時間：2021-12-04 15:14:27 來源：億速云閱讀：437 作者：柒染欄目：互聯網科技

這期內容當中小編將會給大家帶來有關Pyspark如何讀取parquet數據，文章內容豐富且以專業的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

可以跳過不符合條件的數據，只讀取需要的數據，降低IO數據量；壓縮編碼可以降低磁盤存儲空間，使用更高效的壓縮編碼節約存儲空間；只讀取需要的列，支持向量運算，能夠獲取更好的掃描性能。parquet數據：列式存儲結構，由Twitter和Cloudera合作開發，相比于行式存儲，其特點是：

那么我們怎么在pyspark中讀取和使用parquet數據呢？我以local模式， linux下的pycharm執行作說明。

首先，導入庫文件和配置環境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
 
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多個python版本時需要指定
 
conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然后，使用spark進行讀取，得到DataFrame格式的數據：host:port 屬于主機和端口號

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而，DataFrame格式數據有一些方法可以使用，例如：

1.df.first() ：顯示第一條數據，Row格式

print(df.first())

Pyspark如何讀取parquet數據

2.df.columns：列名

3.df.count()：數據量，數據條數

4.df.toPandas()：從spark的DataFrame格式數據轉到Pandas數據結構

5.df.show()：直接顯示表數據；其中df.show(n) 表示只顯示前n行信息

6.type(df)：顯數據示格式

Pyspark如何讀取parquet數據

上述就是小編為大家分享的Pyspark如何讀取parquet數據了，如果剛好有類似的疑惑，不妨參照上述分析進行理解。如果想知道更多相關知識，歡迎關注億速云行業資訊頻道。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
怎么在Pygame游戲中放置平臺
下一篇新聞：
Dockers容器的使用示例

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女