Pandas中apply函數怎么用

發布時間：2022-03-19 11:48:00 來源：億速云閱讀：441 作者：小新欄目：web開發

# Pandas中apply函數怎么用

`apply()`是Pandas庫中最強大且最常用的函數之一，它允許用戶對DataFrame或Series的行/列執行自定義操作。本文將詳細介紹`apply()`的核心用法、性能優化技巧以及實際應用場景。

## 一、apply函數基礎

### 1.1 基本語法

```python
DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs)

func：要應用的函數
axis：應用方向（0: 列方向，1: 行方向）
raw：是否將數據作為ndarray傳遞（默認False，傳遞Series）
result_type：控制返回類型（’expand’/‘reduce’/‘broadcast’）
args：傳遞給func的位置參數

1.2 基本示例

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 對每列求和
df.apply(np.sum, axis=0)

# 對每行求和
df.apply(np.sum, axis=1)

二、Series的apply應用

2.1 標量處理

s = pd.Series([1, 2, 3, 4])

# 平方處理
s.apply(lambda x: x**2)

2.2 向量化操作

# 更高效的向量化操作（推薦）
s ** 2

三、DataFrame的apply應用

3.1 列方向操作

# 計算每列的平均值
df.apply(np.mean)

# 等價于
df.mean()

3.2 行方向操作

# 計算每行的最大值
df.apply(lambda row: max(row), axis=1)

# 等價于
df.max(axis=1)

3.3 復雜數據處理

# 處理多列數據
def complex_func(row):
    return row['A'] * 2 + row['B'] / 3

df.apply(complex_func, axis=1)

四、進階應用技巧

4.1 使用args傳遞參數

def power(x, n):
    return x ** n

df['A'].apply(power, args=(3,))

4.2 返回多列結果

def multi_output(row):
    return pd.Series({
        'sum': row.sum(),
        'mean': row.mean()
    })

df.apply(multi_output, axis=1)

4.3 使用result_type控制輸出

# 自動擴展為多列
df.apply(lambda x: [x.min(), x.max()], 
         axis=1, 
         result_type='expand')

五、性能優化方案

5.1 向量化操作優先

# 不推薦
df.apply(lambda x: x*2)

# 推薦（快10-100倍）
df * 2

5.2 使用內置方法

# 不推薦
df.apply(np.sum)

# 推薦
df.sum()

5.3 使用numba加速

from numba import jit

@jit
def numba_func(x):
    # 復雜計算邏輯
    return result

df.apply(numba_func)

六、實際應用案例

6.1 數據清洗

# 清洗異常值
def clean_data(x):
    if x > 100:
        return np.nan
    return x

df.applymap(clean_data)  # 對每個元素應用

6.2 特征工程

# 創建新特征
df['new_feature'] = df.apply(
    lambda row: row['height'] / row['weight'],
    axis=1
)

6.3 文本處理

# 處理文本列
df['text'].apply(lambda x: x.lower().strip())

七、與相關函數對比

7.1 apply vs map

函數	適用對象	特點
apply	DataFrame	行列方向靈活應用
map	Series	元素級轉換

7.2 apply vs applymap

函數	作用層級	性能
apply	行/列級別	中等
applymap	元素級別	較慢

7.3 apply vs agg/transform

# agg用于聚合操作
df.agg(['sum', 'mean'])

# transform保持原形狀
df.transform(lambda x: x*2)

八、常見問題解答

Q1: 為什么apply比直接運算慢？

A1: apply是通用函數，存在函數調用開銷，而直接運算使用優化過的底層實現。

Q2: 如何判斷該用apply還是向量化操作？

A2: 遵循”向量化優先”原則，只有當內置方法無法實現時才考慮apply。

Q3: apply能并行化嗎？

A3: 可以結合swifter庫實現：

import swifter
df.swifter.apply(func)

九、最佳實踐建議

優先使用Pandas/Numpy內置方法
復雜邏輯考慮使用numba加速
行方向操作時注意性能損耗
大數據集考慮分塊處理
適當使用緩存機制避免重復計算

十、總結

apply()是Pandas中極為靈活的工具，但需要合理使用才能平衡功能與性能。掌握其核心用法后，可以優雅地解決許多復雜的數據處理問題。

注意：本文所有代碼示例基于Pandas 1.3+版本，部分特性在舊版本中可能不可用。 “`

這篇文章包含了約1750字內容，采用Markdown格式，包含： - 代碼塊示例 - 對比表格 - 結構化標題 - 實際應用案例 - 性能優化建議 - 常見問題解答

可根據需要進一步擴展特定部分的細節或添加更多實際案例。

向AI問一下細節

Pandas中apply函數怎么用

1.2 基本示例

二、Series的apply應用

2.1 標量處理

2.2 向量化操作

三、DataFrame的apply應用

3.1 列方向操作

3.2 行方向操作

3.3 復雜數據處理

四、進階應用技巧

4.1 使用args傳遞參數

4.2 返回多列結果

4.3 使用result_type控制輸出

五、性能優化方案

5.1 向量化操作優先

5.2 使用內置方法

5.3 使用numba加速

六、實際應用案例

6.1 數據清洗

6.2 特征工程

6.3 文本處理

七、與相關函數對比

7.1 apply vs map

7.2 apply vs applymap

7.3 apply vs agg/transform

八、常見問題解答

Q1: 為什么apply比直接運算慢？

Q2: 如何判斷該用apply還是向量化操作？

Q3: apply能并行化嗎？

九、最佳實踐建議

十、總結

猜你喜歡

最新資訊

相關推薦

相關標簽