在Python的pandas庫中,可以使用merge()函數實現類似SQL中的聯結(join)操作
首先,我們需要導入pandas庫并創建兩個DataFrame。這里我們創建兩個簡單的DataFrame,分別為df1和df2:
import pandas as pd
data1 = {'key': ['A', 'B', 'C', 'D'],
'value': [1, 2, 3, 4]}
data2 = {'key': ['B', 'D', 'E', 'F'],
'value': [5, 6, 7, 8]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
接下來,我們可以使用merge()函數將這兩個DataFrame進行聯結。默認情況下,merge()函數會根據相同的列名進行內部聯結(inner join)。例如,我們可以使用以下代碼將df1和df2根據’key’列進行聯結:
result = pd.merge(df1, df2, on='key')
print(result)
輸出結果如下:
key value_x value_y
0 B 2 5
1 D 4 6
如果想要進行其他類型的聯結,例如左聯結(left join)、右聯結(right join)或全外聯結(full outer join),可以通過設置how參數實現。例如,以下代碼演示了如何進行左聯結:
result = pd.merge(df1, df2, on='key', how='left')
print(result)
輸出結果如下:
key value_x value_y
0 A 1 NaN
1 B 2 5.0
2 C 3 NaN
3 D 4 6.0
注意,在這個例子中,由于’key’列中的’A’和’C’在df2中不存在,因此對應的value_y值為NaN。