要在Python的pandas庫中實現類似于SQL的分組統計,可以使用groupby()和agg()函數
首先,我們需要導入pandas庫并創建一個DataFrame。這里是一個簡單的例子:
import pandas as pd
data = {'Category': ['A', 'B', 'A', 'A', 'B', 'A', 'B', 'B'],
'Value': [10, 20, 30, 40, 10, 30, 20, 40]}
df = pd.DataFrame(data)
上述代碼將創建一個如下所示的DataFrame:
Category Value
0 A 10
1 B 20
2 A 30
3 A 40
4 B 10
5 A 30
6 B 20
7 B 40
現在,我們可以使用groupby()和agg()函數對Category列進行分組統計,并計算Value列的總和、平均值、最小值和最大值。
result = df.groupby('Category')['Value'].agg(['sum', 'mean', 'min', 'max'])
result DataFrame將如下所示:
sum mean min max
Category
A 110 27.5 10 40
B 90 22.5 10 40
在這個例子中,我們使用了agg()函數來指定我們想要對Value列執行的統計操作。你可以根據需要添加或刪除統計操作。其他常用的統計操作包括'count'、'median'、'var'和'std'等。