Pandas 是一個強大的 Python 數據分析庫,廣泛應用于數據處理、清洗和分析。它提供了高效的數據結構和操作工具,使得處理結構化數據變得簡單而直觀。本文將介紹 Pandas 的主要語法和常用操作。
Pandas 提供了兩種主要的數據結構:Series
和 DataFrame
。
Series
是一種一維數組,可以存儲任何數據類型。每個元素都有一個索引,默認情況下是從 0 開始的整數索引。
import pandas as pd
# 創建一個 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)
DataFrame
是一個二維表格數據結構,類似于 Excel 表格或 SQL 表。它由多個 Series
組成,每個 Series
代表一列。
# 創建一個 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
Pandas 支持從多種文件格式中讀取數據,如 CSV、Excel、SQL 數據庫等。
# 讀取 CSV 文件
df = pd.read_csv('data.csv')
print(df)
# 寫入 CSV 文件
df.to_csv('output.csv', index=False)
Pandas 提供了多種方式來選擇和過濾數據。
# 選擇單列
ages = df['Age']
# 選擇多列
subset = df[['Name', 'City']]
# 選擇前幾行
first_rows = df.head(2)
# 選擇特定條件的行
filtered_rows = df[df['Age'] > 30]
loc
和 iloc
loc
用于基于標簽的選擇,iloc
用于基于位置的選擇。
# 使用 loc 選擇行和列
selected = df.loc[0:1, ['Name', 'City']]
# 使用 iloc 選擇行和列
selected = df.iloc[0:2, 0:2]
Pandas 提供了豐富的數據操作功能,如排序、分組、合并等。
# 按列排序
sorted_df = df.sort_values(by='Age', ascending=False)
# 按列分組并計算平均值
grouped = df.groupby('City').mean()
# 合并兩個 DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})
merged_df = pd.concat([df1, df2])
數據清洗是數據分析的重要步驟,Pandas 提供了多種工具來處理缺失值、重復值等。
# 刪除包含缺失值的行
cleaned_df = df.dropna()
# 填充缺失值
filled_df = df.fillna(0)
# 刪除重復行
unique_df = df.drop_duplicates()
Pandas 集成了 Matplotlib,可以方便地進行數據可視化。
# 繪制柱狀圖
df['Age'].plot(kind='bar')
Pandas 提供了豐富的語法和功能,使得數據處理和分析變得簡單而高效。通過掌握 Series
和 DataFrame
的基本操作,以及數據讀取、選擇、操作、清洗和可視化的方法,你可以輕松應對各種數據分析任務。希望本文能幫助你更好地理解和使用 Pandas。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。