溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python?Pandas數據合并pd.merge怎么使用

發布時間：2022-08-27 11:28:07 來源：億速云閱讀：246 作者：iii 欄目：開發技術

Python Pandas數據合并pd.merge怎么使用

在數據分析和處理過程中，數據合并（Merge）是一個非常常見的操作。Pandas庫提供了強大的數據合并功能，其中pd.merge()函數是最常用的工具之一。本文將詳細介紹pd.merge()的使用方法，并通過多個示例幫助你掌握這一強大的功能。

目錄

什么是數據合并？
pd.merge()函數的基本語法
合并類型
合并鍵的選擇
- 單鍵合并
- 多鍵合并
處理重復列名
合并時的索引處理
實際應用示例
- 示例1：合并銷售數據
- 示例2：合并多個數據集
總結

什么是數據合并？

數據合并是指將兩個或多個數據集按照某些條件組合在一起，形成一個新的數據集。在數據分析中，數據合并通常用于將不同來源的數據整合在一起，以便進行更全面的分析。

例如，假設你有兩個數據集：一個包含客戶信息，另一個包含訂單信息。通過將這兩個數據集合并，你可以得到一個包含客戶信息和訂單信息的完整數據集，從而更好地分析客戶的購買行為。

pd.merge()函數的基本語法

pd.merge()函數的基本語法如下：

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, 
         left_index=False, right_index=False, suffixes=('_x', '_y'))

參數說明：

left：左側的DataFrame。
right：右側的DataFrame。
how：合并類型，默認為'inner'，可選值有'left'、'right'、'outer'。
on：用于合并的列名，必須同時存在于左右兩個DataFrame中。
left_on：左側DataFrame中用于合并的列名。
right_on：右側DataFrame中用于合并的列名。
left_index：如果為True，則使用左側DataFrame的索引作為合并鍵。
right_index：如果為True，則使用右側DataFrame的索引作為合并鍵。
suffixes：用于處理重復列名的后綴，默認為('_x', '_y')。

合并類型

pd.merge()支持多種合并類型，主要包括內連接、左連接、右連接和外連接。下面我們將詳細介紹每種合并類型。

內連接（Inner Join）

內連接是pd.merge()的默認合并類型。它只保留兩個DataFrame中鍵值匹配的行。

import pandas as pd

# 創建兩個DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D', 'E'], 'value': [5, 6, 7, 8]})

# 內連接
result = pd.merge(df1, df2, on='key')
print(result)

輸出結果：

  key  value_x  value_y
0   B        2        5
1   C        3        6
2   D        4        7

左連接（Left Join）

左連接保留左側DataFrame中的所有行，并在右側DataFrame中匹配的行。如果右側DataFrame中沒有匹配的行，則結果中對應的值為NaN。

# 左連接
result = pd.merge(df1, df2, on='key', how='left')
print(result)

輸出結果：

  key  value_x  value_y
0   A        1      NaN
1   B        2      5.0
2   C        3      6.0
3   D        4      7.0

右連接（Right Join）

右連接保留右側DataFrame中的所有行，并在左側DataFrame中匹配的行。如果左側DataFrame中沒有匹配的行，則結果中對應的值為NaN。

# 右連接
result = pd.merge(df1, df2, on='key', how='right')
print(result)

輸出結果：

  key  value_x  value_y
0   B      2.0        5
1   C      3.0        6
2   D      4.0        7
3   E      NaN        8

外連接（Outer Join）

外連接保留兩個DataFrame中的所有行，并在沒有匹配的行中填充NaN。

# 外連接
result = pd.merge(df1, df2, on='key', how='outer')
print(result)

輸出結果：

  key  value_x  value_y
0   A      1.0      NaN
1   B      2.0      5.0
2   C      3.0      6.0
3   D      4.0      7.0
4   E      NaN      8.0

合并鍵的選擇

在實際應用中，合并鍵的選擇非常重要。合并鍵可以是單個列或多個列的組合。

單鍵合并

單鍵合并是指使用一個列作為合并鍵。例如：

# 單鍵合并
result = pd.merge(df1, df2, on='key')
print(result)

多鍵合并

多鍵合并是指使用多個列作為合并鍵。例如：

# 創建兩個DataFrame
df1 = pd.DataFrame({'key1': ['A', 'B', 'C', 'D'], 'key2': ['W', 'X', 'Y', 'Z'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key1': ['B', 'C', 'D', 'E'], 'key2': ['X', 'Y', 'Z', 'W'], 'value': [5, 6, 7, 8]})

# 多鍵合并
result = pd.merge(df1, df2, on=['key1', 'key2'])
print(result)

輸出結果：

  key1 key2  value_x  value_y
0    B    X        2        5
1    C    Y        3        6
2    D    Z        4        7

處理重復列名

當兩個DataFrame中存在相同的列名時，pd.merge()會自動為這些列添加后綴以區分它們。默認情況下，后綴為'_x'和'_y'。

# 處理重復列名
result = pd.merge(df1, df2, on='key', suffixes=('_left', '_right'))
print(result)

輸出結果：

  key  value_left  value_right
0   B           2            5
1   C           3            6
2   D           4            7

合并時的索引處理

在某些情況下，你可能希望使用DataFrame的索引作為合并鍵?？梢酝ㄟ^設置left_index和right_index參數來實現。

# 使用索引作為合并鍵
df1.set_index('key', inplace=True)
df2.set_index('key', inplace=True)

result = pd.merge(df1, df2, left_index=True, right_index=True)
print(result)

輸出結果：

     value_x  value_y
key                  
B          2        5
C          3        6
D          4        7

實際應用示例

示例1：合并銷售數據

假設你有兩個數據集：一個包含客戶信息，另一個包含訂單信息。你可以通過pd.merge()將這兩個數據集合并，以便分析客戶的購買行為。

# 創建客戶信息DataFrame
customers = pd.DataFrame({
    'customer_id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', 'Charlie', 'David']
})

# 創建訂單信息DataFrame
orders = pd.DataFrame({
    'order_id': [101, 102, 103, 104],
    'customer_id': [1, 2, 3, 5],
    'amount': [100, 200, 300, 400]
})

# 合并客戶信息和訂單信息
result = pd.merge(customers, orders, on='customer_id', how='left')
print(result)

輸出結果：

   customer_id     name  order_id  amount
0            1    Alice     101.0   100.0
1            2      Bob     102.0   200.0
2            3  Charlie     103.0   300.0
3            4    David       NaN     NaN

示例2：合并多個數據集

在某些情況下，你可能需要合并多個數據集?？梢酝ㄟ^多次調用pd.merge()來實現。

# 創建第三個DataFrame
payments = pd.DataFrame({
    'payment_id': [201, 202, 203, 204],
    'order_id': [101, 102, 103, 105],
    'amount': [50, 100, 150, 200]
})

# 合并客戶信息、訂單信息和支付信息
result = pd.merge(customers, orders, on='customer_id', how='left')
result = pd.merge(result, payments, on='order_id', how='left')
print(result)

輸出結果：

   customer_id     name  order_id  amount_x  payment_id  amount_y
0            1    Alice     101.0     100.0       201.0      50.0
1            2      Bob     102.0     200.0       202.0     100.0
2            3  Charlie     103.0     300.0       203.0     150.0
3            4    David       NaN       NaN         NaN       NaN

總結

pd.merge()是Pandas庫中非常強大的數據合并工具，支持多種合并類型和靈活的合并鍵選擇。通過本文的介紹和示例，你應該已經掌握了pd.merge()的基本用法。在實際的數據分析工作中，靈活運用pd.merge()可以幫助你高效地整合和處理數據，從而更好地進行數據分析和挖掘。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
游戲服務器中的Netty應用怎么實現
下一篇新聞：
C++繼承與菱形繼承怎么定義

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女