這篇文章將為大家詳細講解有關Python箱型圖處理離群點的示例分析,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
首先我們簡單地區分一下離群點(outlier)以及異常值(anomaly):
離群點:

異常值:
個人覺著異常值和離群點是兩個不同的概念,當然大家在數據預處理時對于這兩個概念不做細致的區分,不如:姚明站在我們中間的時候,我覺著我們只能說他是一個離群點,我們能說他異常嗎?異常的假設是姚明得了巨人癥,可是他不是。
箱型圖


代碼塊
餐飲銷售數據離群點檢測代碼:
#-*- coding: utf-8 -*- import pandas as pd catering_sale = '../data/catering_sale.xls' #餐飲數據 data = pd.read_excel(catering_sale, index_col = u'日期') #讀取數據,指定“日期”列為索引列 import matplotlib.pyplot as plt #導入圖像庫 plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標簽 plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號 plt.figure() #建立圖像 p = data.boxplot(return_type='dict') #畫箱線圖,直接使用DataFrame的方法 x = p['fliers'][0].get_xdata() # 'fliers'即為離群點的標簽 y = p['fliers'][0].get_ydata() y.sort() #從小到大排序,該方法直接改變原對象 #用annotate添加注釋 #其中有些相近的點,注解會出現重疊,難以看清,需要一些技巧來控制。 #以下參數都是經過調試的,需要具體問題具體調試。 for i in range(len(x)): if i > 0: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i])) else: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i])) plt.show() #展示箱線圖
運行結果:

關于“Python箱型圖處理離群點的示例分析”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。