溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何淺析大數據預處理

發布時間:2021-12-20 15:18:04 來源:億速云 閱讀:228 作者:柒染 欄目:大數據

如何淺析大數據預處理,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

數據分析一般分為兩條主線:

第一條主線是數據層面

第二條主線是業務層面

數據分析的一般步驟:

產生數據—>收集數據—>存儲數據—>提取數據—>數據預處理—>數據分析—>數據可視化—>數據報告的解釋說明

一、數據預處理的必要性

目前,數據挖掘的研究工作大都集中在算法的探討而忽視對數據處理的研究。事實上,數據預處理對數據挖掘十分重要,一些成熟的算法對其處理的數據集合都有一定的要求:比如數據的完整性好,冗余性小,屬性的相關性小等。

數據預處理是數據挖掘的重要一環,而且必不可少。要使挖掘算法挖掘出有效的知識,必須為其提供干凈,準確,簡潔的數據。然而,實際應用系統中收集的數據通常是“臟”數據。

二、數據存在的問題

不完整: # 缺少數據值       #缺少一些重要屬性          #僅包含聚集數據

有噪聲:#包含錯誤或者孤立點     #例如,工資=-100   

數據不一致:#在編碼或者命名上存在差異           #例如,過去的等級“1,23″而現在的等級“A,B,C        #重復記錄間的不一致性

三、數據存在問題的原因

不完整數據的成因

數據收集的時候就缺乏合適的值

數據收集時和數據分析時的不同考慮因素

人為/硬件/軟件問題

噪聲數據(不正確的值)的成因

數據收集工具的問題

數據輸入時的人為計算機錯誤

數據傳輸中產生的錯誤

數據不一致性的成因

不同的數據源

違反了函數依賴性

四、預處理重要性

沒有高質量的數據,就沒有高質量的挖掘結果

高質量的決策必須依賴高質量的數據

例如,重復值或者空缺值將會產生不正確的或者令人誤導的統計

數據倉庫需要對高質量的數據進行一致地集成

PS:數據預處理是數據分析流程中工作量最大的

五、數據預處理的常規方法

1數據清洗

去掉噪聲和無關數據

如何淺析大數據預處理

2數據集成

將多個數據源中的數據結合起來存放在一個一致的數據存儲中

如何淺析大數據預處理

3數據變換

把原始數據轉換成為適合數據挖掘的形式

如何淺析大數據預處理

4數據歸約

主要方法包括:數據立方體聚集,維歸約,數據壓縮,數值歸約,

離散化和概念分層等

如何淺析大數據預處理

淺析下實際工作中數據分析的預處理階段:

數據層面的分析:

數據預處理:【空值,缺失值,異常值等】—>處理方法主要是刪,填(一般填中位數,均值等)

預處理的邏輯操作:一般邏輯順序如下

1.異常值:測量值減去均值大于2倍的標準差,我則認為這是異常值?!?gt;箱型圖也能看出異常值。datahoop跑箱型圖也能看出異常值。

也可以不處理:不處理也要說明理由。但是主要看占比和實際業務情況。記住現實生活中重要的一點:存在即合理。

2.數據標準化:把數據縮放。先構造新變量后再做標準化,防止量綱變大影響數據模型算法。

3.量綱:量綱的大小變化會影響大多數,自變量波動很大時會影響大多數數據模型算法。所以我們要做數據標準化。數據標準化就是把所有數據歸于一個范圍區間內?!?gt;Z值公式:自變量x=(原值減去均值)除以標準差。

4.共線性:目的是降維,共線性——相關系數矩陣。

相關系數小于0.3即為弱相關。相關系數0.7到0.9左右的話即認為是強相關。

做算法之前,一定要去看相關性。

想要降相關性的方法—>一般有兩種方法:1.增大樣板容量的量2.構造新變量(增量法和比值法)—>降維(因子分析和主成份分析)。

主成分分析與因子分析的區別:

主成分分析:主成分分析就是設法將原來眾多具有一定相關性,重新組合成一組新的互相無關的綜合指標來代替原來的指標。綜合指標即為主成分。所得出的少數幾個主成分,要盡可能地保留原始變量的信息,且彼此不相關。

因子分析是研究如何以最少的信息丟失,將眾多原始變量分解成少數幾個因子變量,以及如何使因子變量具有較強的可解釋性的一種多元統計分析方法。

因子分析:因子分析不是對原始變量的重新組合,而是對原始變量進行分解,分解為公共因子和特殊因子兩部分。具體說,就是要找出某個問題中科直接測量的具有一定相關性的諸指標 ,如何受少數幾個在專業中有意義、又不可直接測量到、且相對獨立的因子支配的規律,從而可用各指標的測定來間接確定各因子狀態。

因子分析只能解釋部分變異,主成分分析能解釋所有變異 。

數據預處理的思路一定要完整,要給出數據預處理的處理理由。

舉例練習:活用Excel2016版本以上,基本上都有數據分析的功能。

刪除空值

如何淺析大數據預處理

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女