各種數據分析技術的對象是數據源中的數據
數據源中的數據可能不完整(如某些屬性的值不確定或空缺)、含噪聲和不一致(如同一個屬性在不同表中的名稱不同) 、量綱不同
如果直接在這些未經處理的數據上進行分析,結果不一定準確,效率也可能較低
需要使用清理、集成、變換、歸約等預處理方法改善數據質量,從而提高數據分析的效率與質量
主要介紹數據清理、集成、變換、規約等預處理技術
數據清理用于消除噪聲、數據不一致及數據不完整
噪聲可以通過平滑、識別孤立點等方法進行消除
分箱技術:將數據排序,根據等深或等寬分布規則將數據分布到不同箱中,將同一箱中的數據用用該箱中數據的平均值或中值、邊界值替換(平均值平滑、中值平滑、邊界平滑)
設某屬性的值為18,12,3,9,7,6,15,21,16,采用分箱技術平滑數據消除噪聲。分布規則為等深、深度為3,平滑規則為平均值平滑
首先,將屬性的值排序為3, 6, 7, 9, 12, 15, 16, 18, 21
數據不完整可以使用下列方法消除:
1)使用一個全局常量填充
2)使用屬性平均值填充
3)使用相同類的屬性平均值填充
4)使用最可能的值填充 需要采用預測算法,預測給定樣本的最可能的值并填充
數據不一致可以通過元數據消除(描述數據的數據)
數據集成
數據集成是將多個數據源中的數據結合起來存放在一個一致的數據存儲(如數據倉庫)中
這些數據源可能包括多個數據庫、數據立方體或一般文件
在數據集成時,需要消除冗余——能夠由另外的屬性“導出”、命名的不一致的屬性
冗余可以通過相關分析進行檢測
屬性A、B之間的相關性計算:
rA,B>0,A與B正相關,A的值隨著B的值的增加而增加
rA,B<0,A與B負相關,A的值隨著B的值的增加而減少
rA,B=0,A與B獨立。因此,|rA,B|很大時,A與B可以去除一個
數據變換
將屬性數據按比例縮放,使之落入一個小的特定區間,如-1.0到1.0或0.0到1.0
最小-最大規格化:
[minA,maxA]為數值屬性A規格化前的取值區間
[new minA,new maxA] 為A規格化后的取值區間,最小-最大規格化根據下式將A的值v規格化為值v’
采用最小-最大規格化方法將[-100,100]中的66規格化到區間[0,1]
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。