這篇文章主要介紹了Python如何實現Excel數據的探索和清洗,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
Python是一種跨平臺的、具有解釋性、編譯性、互動性和面向對象的腳本語言,其最初的設計是用于編寫自動化腳本,隨著版本的不斷更新和新功能的添加,常用于用于開發獨立的項目和大型項目。
數據的探索和清洗
1、讀取Excel文件的數據并轉換為dataframe
# 1.讀取Excel文件的數據并轉換為dataframe file = "d:/test/Summary/Data_Summary.xlsx" data_raw = pd.read_excel(file, header=0, index_col=0) # header設定為0:是為了使第1行的數據成為列的字段名
2、查看數據集的整體狀態,了解基本特征列的情況
data_raw.head()
3、刪除無效的數據列
remove_col = ["序號"] data_prep0 = data_raw.drop(columns=remove_col, axis=1, inplace=None) data_prep0.head()
4、查看數據集的整體信息,了解缺失值的分布情況
data_prep0.info()
5、檢看數據集中缺失值的狀態并刪除缺失值
data_prep = data_prep0.dropna(subset=["產品"], axis=0) data_prep.info()
6、檢查數據集中重復值的狀態并刪除重復值
print("數據集中的重復值數量:", np.sum(data_prep.duplicated())) # 如果重復值的數量不為"0", 則表示有重復值存在,可使用下列代碼刪除 # data_prep.drop_duplicates(keep="first", inplace=True)
感謝你能夠認真閱讀完這篇文章,希望小編分享的“Python如何實現Excel數據的探索和清洗”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。