# Pandas中apply函數怎么用
`apply()`是Pandas庫中最強大且最常用的函數之一,它允許用戶對DataFrame或Series的行/列執行自定義操作。本文將詳細介紹`apply()`的核心用法、性能優化技巧以及實際應用場景。
## 一、apply函數基礎
### 1.1 基本語法
```python
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs)
func:要應用的函數axis:應用方向(0: 列方向,1: 行方向)raw:是否將數據作為ndarray傳遞(默認False,傳遞Series)result_type:控制返回類型(’expand’/‘reduce’/‘broadcast’)args:傳遞給func的位置參數import pandas as pd
import numpy as np
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
})
# 對每列求和
df.apply(np.sum, axis=0)
# 對每行求和
df.apply(np.sum, axis=1)
s = pd.Series([1, 2, 3, 4])
# 平方處理
s.apply(lambda x: x**2)
# 更高效的向量化操作(推薦)
s ** 2
# 計算每列的平均值
df.apply(np.mean)
# 等價于
df.mean()
# 計算每行的最大值
df.apply(lambda row: max(row), axis=1)
# 等價于
df.max(axis=1)
# 處理多列數據
def complex_func(row):
return row['A'] * 2 + row['B'] / 3
df.apply(complex_func, axis=1)
def power(x, n):
return x ** n
df['A'].apply(power, args=(3,))
def multi_output(row):
return pd.Series({
'sum': row.sum(),
'mean': row.mean()
})
df.apply(multi_output, axis=1)
# 自動擴展為多列
df.apply(lambda x: [x.min(), x.max()],
axis=1,
result_type='expand')
# 不推薦
df.apply(lambda x: x*2)
# 推薦(快10-100倍)
df * 2
# 不推薦
df.apply(np.sum)
# 推薦
df.sum()
from numba import jit
@jit
def numba_func(x):
# 復雜計算邏輯
return result
df.apply(numba_func)
# 清洗異常值
def clean_data(x):
if x > 100:
return np.nan
return x
df.applymap(clean_data) # 對每個元素應用
# 創建新特征
df['new_feature'] = df.apply(
lambda row: row['height'] / row['weight'],
axis=1
)
# 處理文本列
df['text'].apply(lambda x: x.lower().strip())
| 函數 | 適用對象 | 特點 |
|---|---|---|
| apply | DataFrame | 行列方向靈活應用 |
| map | Series | 元素級轉換 |
| 函數 | 作用層級 | 性能 |
|---|---|---|
| apply | 行/列級別 | 中等 |
| applymap | 元素級別 | 較慢 |
# agg用于聚合操作
df.agg(['sum', 'mean'])
# transform保持原形狀
df.transform(lambda x: x*2)
A1: apply是通用函數,存在函數調用開銷,而直接運算使用優化過的底層實現。
A2: 遵循”向量化優先”原則,只有當內置方法無法實現時才考慮apply。
A3: 可以結合swifter庫實現:
import swifter
df.swifter.apply(func)
apply()是Pandas中極為靈活的工具,但需要合理使用才能平衡功能與性能。掌握其核心用法后,可以優雅地解決許多復雜的數據處理問題。
注意:本文所有代碼示例基于Pandas 1.3+版本,部分特性在舊版本中可能不可用。 “`
這篇文章包含了約1750字內容,采用Markdown格式,包含: - 代碼塊示例 - 對比表格 - 結構化標題 - 實際應用案例 - 性能優化建議 - 常見問題解答
可根據需要進一步擴展特定部分的細節或添加更多實際案例。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。