溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

python數據預處理之數據標準化的處理方式有哪些

發布時間：2021-08-11 15:09:23 來源：億速云閱讀：179 作者：小新欄目：開發技術

小編給大家分享一下python數據預處理之數據標準化的處理方式有哪些，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

何為標準化：

在數據分析之前，我們通常需要先將數據標準化（normalization），利用標準化后的數據進行數據分析。數據標準化也就是統計數據的指數化。數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題，對不同性質指標直接加總不能正確反映不同作用力的綜合結果，須先考慮改變逆指標數據性質，使所有指標對測評方案的作用力同趨化，再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。

幾種標準化方法：

歸一化Max-Min

min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值，將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x'，其公式為：

新數據=（原數據-最小值）/（最大值-最小值）

這種方法能使數據歸一化到一個區域內，同時不改變原來的數據結構。

實現中心化Z-Score

這種方法基于原始數據的均值（mean）和標準差（standard deviation）進行數據的標準化。將A的原始值x使用z-score標準化到x'。

z-score標準化方法適用于屬性A的最大值和最小值未知的情況，或有超出取值范圍的離群數據的情況。

新數據=（原數據-均值）/標準差

這種方法適合大多數類型數據，也是很多工具的默認標準化方法。標準化之后的數據是以0為均值，方差為以的正太分布。但是Z-Score方法是一種中心化方法，會改變原有數據的分布結構，不適合用于對稀疏數據做處理。

很多時候數據集會存在稀疏特征，表現為標準差小，很多元素值為0，最常見的稀疏數據集是用來做協同過濾的數據集，絕大部分數據都是0。對稀疏數據做標準化，不能采用中心化的方式，否則會破壞稀疏數據的結構。

用于稀疏數據的MaxAbs

最大值絕對值標準化（MaxAbs）即根據最大值的絕對值進行標準化，假設原轉換的數據為x，新數據為x'，那么x'=x/|max|，其中max為x鎖在列的最大值。

該方法的數據區間為[-1, 1]，也不破壞原數據結構的特點，因此也可以用于稀疏數據，一些稀疏矩陣。

針對離群點的RobustScaler

有些時候，數據集中存在離群點，用Z-Score進行標準化，但是結果不理想，因為離群點在標準化后喪失了利群特性。RobustScaler針對離群點做標準化處理，該方法對數據中心化的數據的縮放健壯性有更強的參數控制能力。

python實現

import numpy as np
import pandas as pd
from sklearn import preprocessing
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt
%matplotlib inline

# 導入數據
data = make_moons(n_samples=200, noise=10)[0]

#Z-Score標準化
#建立StandardScaler對象
zscore = preprocessing.StandardScaler()
# 標準化處理
data_zs = zscore.fit_transform(data)

#Max-Min標準化
#建立MinMaxScaler對象
minmax = preprocessing.MinMaxScaler()
# 標準化處理
data_minmax = minmax.fit_transform(data)

#MaxAbs標準化
#建立MinMaxScaler對象
maxabs = preprocessing.MaxAbsScaler()
# 標準化處理
data_maxabs = maxabs.fit_transform(data)

#RobustScaler標準化
#建立RobustScaler對象
robust = preprocessing.RobustScaler()
# 標準化處理
data_rob = robust.fit_transform(data)

# 可視化數據展示
# 建立數據集列表
data_list = [data, data_zs, data_minmax, data_maxabs, data_rob]
# 創建顏色列表
color_list = ['blue', 'red', 'green', 'black', 'pink']
# 創建標題樣式
title_list = ['source data', 'zscore', 'minmax', 'maxabs', 'robust']

# 設置畫幅
plt.figure(figsize=(9, 6))
# 循環數據集和索引
for i, dt in enumerate(data_list):
  # 子網格
  plt.subplot(2, 3, i+1)
  # 數據畫散點圖
  plt.scatter(dt[:, 0], dt[:, 1], c=color_list[i])
  # 設置標題
  plt.title(title_list[i])
# 圖片儲存 
plt.savefig('xx.png')
# 圖片展示
plt.show()

python數據預處理之數據標準化的處理方式有哪些

以上是“python數據預處理之數據標準化的處理方式有哪些”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
web開發中前后端常見的鑒權方式有哪些
下一篇新聞：
Python高級特性與函數的示例分析

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女