溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

數據預處理

發布時間：2020-07-10 16:18:58 來源：網絡閱讀：1509 作者：necther 欄目：大數據

各種數據分析技術的對象是數據源中的數據
數據源中的數據可能不完整（如某些屬性的值不確定或空缺）、含噪聲和不一致（如同一個屬性在不同表中的名稱不同）、量綱不同
如果直接在這些未經處理的數據上進行分析，結果不一定準確，效率也可能較低
需要使用清理、集成、變換、歸約等預處理方法改善數據質量，從而提高數據分析的效率與質量
主要介紹數據清理、集成、變換、規約等預處理技術

數據清理用于消除噪聲、數據不一致及數據不完整
噪聲可以通過平滑、識別孤立點等方法進行消除
分箱技術：將數據排序，根據等深或等寬分布規則將數據分布到不同箱中，將同一箱中的數據用用該箱中數據的平均值或中值、邊界值替換（平均值平滑、中值平滑、邊界平滑）
設某屬性的值為18，12，3，9，7，6，15，21，16，采用分箱技術平滑數據消除噪聲。分布規則為等深、深度為3，平滑規則為平均值平滑
首先，將屬性的值排序為3, 6, 7, 9, 12, 15, 16, 18, 21
數據預處理
數據不完整可以使用下列方法消除：
1）使用一個全局常量填充
2）使用屬性平均值填充
3）使用相同類的屬性平均值填充
4）使用最可能的值填充需要采用預測算法，預測給定樣本的最可能的值并填充

數據不一致可以通過元數據消除（描述數據的數據）

數據集成

數據集成是將多個數據源中的數據結合起來存放在一個一致的數據存儲（如數據倉庫）中
這些數據源可能包括多個數據庫、數據立方體或一般文件
在數據集成時，需要消除冗余——能夠由另外的屬性“導出”、命名的不一致的屬性
冗余可以通過相關分析進行檢測
屬性A、B之間的相關性計算：
數據預處理
rA,B>0，A與B正相關，A的值隨著B的值的增加而增加
rA,B<0，A與B負相關，A的值隨著B的值的增加而減少
rA,B=0，A與B獨立。因此，|rA,B|很大時，A與B可以去除一個

數據變換
將屬性數據按比例縮放，使之落入一個小的特定區間，如－1.0到1.0或0.0到1.0
最小-最大規格化：
[minA，maxA]為數值屬性A規格化前的取值區間
[new minA，new maxA] 為A規格化后的取值區間，最小-最大規格化根據下式將A的值v規格化為值v’
數據預處理
采用最小-最大規格化方法將[－100，100]中的66規格化到區間[0，1]

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
dns泛解析及代碼測試
下一篇新聞：
html如何與css分開

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女