溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Pandas實用的技巧分享

發布時間：2021-08-22 21:57:31 來源：億速云閱讀：184 作者：chen 欄目：編程語言

這篇文章主要講解了“Pandas實用的技巧分享”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“Pandas實用的技巧分享”吧！

01 使用apply拆分文本

Pandas 中 apply 函數，應用廣泛，今天要跟大家分享一個使用的技巧，使用 apply 將 dataframe 中內容為 list 的列拆分為多列。

拆分前的數據情況，如下圖紅色標注所示：

Pandas實用的技巧分享

拆分后，如下圖所示：

Pandas實用的技巧分享

這個案例中，Lemon 使用的數據來自 akshare ，在開始前，引入相關 package ：

# -*- coding: utf-8 -*-  """  @Author: Lemon  @出品：Python數據之道  @Homepage: liyangbit.com  """  import numpy as np  import pandas as pd  import akshare as ak

Lemon 使用的幾個 Python 庫的版本信息如下：

print('numpy版本：{}'.format(np.__version__))  print('pandas版本：{}'.format(pd.__version__))  print('akshare版本：{}'.format(ak.__version__)) # numpy版本：1.18.1  # pandas版本：1.0.3  # akshare版本：0.7.53

如果代碼運行出現問題，請先檢查下這幾個Python庫的版本是否與上面的一致

先從 akshare 獲取需要的數據，分為兩步，第一步是獲取基金代碼的列表，如下：

df = ak.fund_em_fund_name().head(20).tail(5)  dfdf = df[['基金代碼','基金簡稱']]  print(df)

第二步是獲取基金凈值數據和凈值日期，通過一個自定義函數來獲取，自定義函數如下：

# 自定義函數只有一個參數的情形  # 獲取基金單位凈值以及凈值日期  def get_mutual_fund(code):      df = ak.fund_em_open_fund_info(fund=code, indicator="單位凈值走勢")      dfdf = df[['凈值日期', '單位凈值','日增長率']]      # df.columns = ['凈值日期', '單位凈值', 'equityReturn', 'unitMoney']      df['凈值日期'] = pd.to_datetime(df['凈值日期'])      dfdf = df.sort_values('凈值日期',ascending=False)      unit_equity = df.head(1)['單位凈值'].values[0]      date_latest = df.head(1)['凈值日期'].values[0]      return [unit_equity, date_latest]

對于這個自定義函數，在 pandas 使用 apply 來應用自定義函數，這是使用 apply 的一種常用的方法，如下：

# 獲取基金最新的單位凈值和凈值日期  df['tmp'] = df['基金代碼'].apply(get_mutual_fund)  print(df)

獲取的數據截圖如下：

Pandas實用的技巧分享

文本拆分

上圖中的 tmp 列，就是我們這次需要進行處理的對象。

處理方法可以有多種，這里 Lemon 使用 pandas 中的 apply 來處理，相對來說，也是比較便捷的方式。

在 apply 函數中，使用 pd.Series 就可以達到我們的目的。

# 將單位凈值和凈值日期單獨成列  df[['最新單位凈值','凈值日期']] = df['tmp'].apply(pd.Series)  dfdf = df.drop('tmp',axis=1)  print(df)

結果如下：

Pandas實用的技巧分享

02 有兩個參數的函數

pandas 中的 apply 函數應用自定義函數時，通常情況下，都是沒有參數或者一個參數，那么如果有兩個參數，是否還可以使用apply函數呢？

答案是可以的。

這里我們也來探討下。

還是以上面的案例為基礎雛形，同樣的，先從 akshare 獲取數據

df1 = ak.fund_em_fund_name().head(20).tail(5)  df1df1 = df1[['基金代碼','基金簡稱']]

接下來，自定義一個帶有兩個參數的函數，如下：

# 自定義函數有兩個參數的情形  # 獲取年度年底基金凈值數據  def get_mutual_fund_year(code,year):      year = str(year)      df = ak.fund_em_open_fund_info(fund=code, indicator="單位凈值走勢")      dfdf = df[['凈值日期', '單位凈值', '日增長率']]      # df.columns = ['凈值日期', '單位凈值', 'equityReturn', 'unitMoney']      df['凈值日期'] = pd.to_datetime(df['凈值日期'])     dfdf = df.sort_values('凈值日期',ascending=False)      dfdf = df.set_index('凈值日期')[year]     dfdf = df.reset_index()      unit_equity = df.head(1)['單位凈值'].values[0]      date = df.head(1)['凈值日期'].values[0]      return [unit_equity,date]

帶有兩個參數的自定義函數

然后，使用 apply 來應用上面這個帶兩個參數的自定義函數，核心要點就是嵌套使用 lambda 函數，固定其中一個參數，具體如下

df1['tmp'] = df1['基金代碼'].apply(lambda code: get_mutual_fund_year(code, 2019))

后續，依舊是文本拆分，實現代碼如下：

# 將單位凈值和凈值日期單獨成列  df1[['最新單位凈值','凈值日期']] = df1['tmp'].apply(pd.Series)  df1df1 = df1.drop('tmp',axis=1)  print(df1)

應用場景

有同學可能會問，使用兩個參數的自定義函數，有什么用呢？

這里，Lemon 也分享一個應用場景：

根據上面的基礎雛形數據，針對具體的年度，建立一個下拉列表，選擇不同的年份時，返回不同年份的結果，包括文本數據、表格數據以及圖表等。

效果如下：

Pandas實用的技巧分享

涉及到一些個人的數據，就沒有完整展示啦~~

感謝各位的閱讀，以上就是“Pandas實用的技巧分享”的內容了，經過本文的學習后，相信大家對Pandas實用的技巧分享這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
HDFS垃圾回收箱的配置及使用
下一篇新聞：
django中的models數據庫同步命令

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女