小編給大家分享一下python數據預處理之數據標準化的處理方式有哪些,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
何為標準化:
在數據分析之前,我們通常需要先將數據標準化(normalization),利用標準化后的數據進行數據分析。數據標準化也就是統計數據的指數化。數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。
幾種標準化方法:
歸一化Max-Min
min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x',其公式為:
新數據=(原數據-最小值)/(最大值-最小值)
這種方法能使數據歸一化到一個區域內,同時不改變原來的數據結構。
實現中心化Z-Score
這種方法基于原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x'。
z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標準差
這種方法適合大多數類型數據,也是很多工具的默認標準化方法。標準化之后的數據是以0為均值,方差為以的正太分布。但是Z-Score方法是一種中心化方法,會改變原有數據的分布結構,不適合用于對稀疏數據做處理。
很多時候數據集會存在稀疏特征,表現為標準差小,很多元素值為0,最常見的稀疏數據集是用來做協同過濾的數據集,絕大部分數據都是0。對稀疏數據做標準化,不能采用中心化的方式,否則會破壞稀疏數據的結構。
用于稀疏數據的MaxAbs
最大值絕對值標準化(MaxAbs)即根據最大值的絕對值進行標準化,假設原轉換的數據為x,新數據為x',那么x'=x/|max|,其中max為x鎖在列的最大值。
該方法的數據區間為[-1, 1],也不破壞原數據結構的特點,因此也可以用于稀疏數據,一些稀疏矩陣。
針對離群點的RobustScaler
有些時候,數據集中存在離群點,用Z-Score進行標準化,但是結果不理想,因為離群點在標準化后喪失了利群特性。RobustScaler針對離群點做標準化處理,該方法對數據中心化的數據的縮放健壯性有更強的參數控制能力。
python實現
import numpy as np import pandas as pd from sklearn import preprocessing import matplotlib.pyplot as plt from sklearn.datasets import make_moons import matplotlib.pyplot as plt %matplotlib inline # 導入數據 data = make_moons(n_samples=200, noise=10)[0] #Z-Score標準化 #建立StandardScaler對象 zscore = preprocessing.StandardScaler() # 標準化處理 data_zs = zscore.fit_transform(data) #Max-Min標準化 #建立MinMaxScaler對象 minmax = preprocessing.MinMaxScaler() # 標準化處理 data_minmax = minmax.fit_transform(data) #MaxAbs標準化 #建立MinMaxScaler對象 maxabs = preprocessing.MaxAbsScaler() # 標準化處理 data_maxabs = maxabs.fit_transform(data) #RobustScaler標準化 #建立RobustScaler對象 robust = preprocessing.RobustScaler() # 標準化處理 data_rob = robust.fit_transform(data) # 可視化數據展示 # 建立數據集列表 data_list = [data, data_zs, data_minmax, data_maxabs, data_rob] # 創建顏色列表 color_list = ['blue', 'red', 'green', 'black', 'pink'] # 創建標題樣式 title_list = ['source data', 'zscore', 'minmax', 'maxabs', 'robust'] # 設置畫幅 plt.figure(figsize=(9, 6)) # 循環數據集和索引 for i, dt in enumerate(data_list): # 子網格 plt.subplot(2, 3, i+1) # 數據畫散點圖 plt.scatter(dt[:, 0], dt[:, 1], c=color_list[i]) # 設置標題 plt.title(title_list[i]) # 圖片儲存 plt.savefig('xx.png') # 圖片展示 plt.show()
以上是“python數據預處理之數據標準化的處理方式有哪些”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。