溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

python機器學習算法與數據降維的示例分析

發布時間：2022-03-04 11:40:12 來源：億速云閱讀：181 作者：小新欄目：開發技術

這篇文章主要介紹python機器學習算法與數據降維的示例分析，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

一、數據降維

機器學習中的維度就是特征的數量，降維即減少特征數量。降維方式有：特征選擇、主成分分析。

1.特征選擇

當出現以下情況時，可選擇該方式降維：

①冗余：部分特征的相關度高，容易消耗計算性能

②噪聲：部分特征對預測結果有影響

特征選擇主要方法：過濾式（VarianceThreshold）、嵌入式（正則化、決策樹）

過濾式：

sklearn特征選擇API

sklearn.feature_selection.VarianceThreshold

python機器學習算法與數據降維的示例分析

注意：沒有最好的方差選擇，需要根據實際效果選擇方差。

2.主成分分析（PCA）

API：sklearn.decomposition

主成分分析會盡可能降低原數據的維數，損失少量信息。當特征數量達到上百的時候，就需要考慮主成分分析?？梢韵鳒p回歸分析或者聚類分析中特征的數量。

PCA語法：

python機器學習算法與數據降維的示例分析

里面的n_components通常填0-1的小數，代表保留百分之多少的數據，比如0.95意思是保留95%的數據。通常在0.9-0.95之間

3.降維方法使用流程

例如：研究用戶和購買物品類別的關系，數據有不同的表格存儲，均為csv文件，但所需的兩者“用戶”和“購買物品類別”，存在于不同的表中。則可以按照以下流程進行：

1.觀察各個表格的鍵，通過相同的鍵對表格進行合并，使用pandas.merge(表1,表2,鍵1,鍵2)方法，其中鍵1和鍵2相同。經過多次合并，最終將兩個目標合并到一張表中。

2.通過交叉表pd.crosstab(合并后的表['用戶'], 合并后的表['物品類別'])，建立一個以用戶為行，以物品類別為列的數據表。

3.對表格進行數據的降維，可以使用PCA(n_components=0.9)，保留90%的有效信息，輸出降維后的數據。即可有效減少維度，并確保留存90%的有效信息。

二、機器學習開發流程

1.機器學習算法分類

數據類型：

離散型：區間內不可分，通常是在分類型問題中。

連續型：區間內可分，通常是在預測型問題中。

算法分類：

算法總體分為兩類，監督學習和無監督學習。

①監督學習包含特征值+目標值，算法又分為兩小類，分類算法和回歸算法。

分類算法：k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸、神經網絡

回歸算法：線性回歸、嶺回歸

②無監督學習只有特征值，通常是聚類算法：k-means

2.機器學習開發流程

機器學習開發首先需要有數據，數據來源可能有以下幾種：公司本身有數據、合作過來的數據、購買的數據。

具體開發流程如下：

①明確實際問題做什么：根據目標值數據類型，建立模型，劃分應用種類?？纯词欠诸悊栴}還是預測問題。

②數據的基本處理：使用pandas處理數據，缺失值，合并表等等。

③特征工程：對數據特征進行處理（重要）。

④找到合適的算法去進行預測。

⑤模型的評估，判定效果→上線使用，以API形式提供；若模型評估沒有合格：換算法、參數，特征工程

sklearn數據集的使用：

通常在使用前會對數據集進行劃分，從數據中拿出約75%作為訓練集、25%作為測試集。也可以0.8/0.2等。通常0.75/0.25是使用最多的。

sklearn數據集劃分API：sklearn.model_selection.train_set_split

sklearn數據集API：

python機器學習算法與數據降維的示例分析

獲取數據集返回的類型：

python機器學習算法與數據降維的示例分析

數據集進行分割：

python機器學習算法與數據降維的示例分析

用于分類的大數據集：

python機器學習算法與數據降維的示例分析

sklearn回歸數據集：

python機器學習算法與數據降維的示例分析

三、轉換器與估計器

1.轉換器

在數據處理中用到的fit_tansform方法中，其實可以拆分為fit方法和transform方法。

fit_transform() = fit() + transform()

若直接使用fit_transform()，則是對輸入的數據進行求平均值、標準差，并使用它們進行數據處理最終輸出結果。

如果拆開的話：

fit()：輸入數據，計算平均值，標準差等，不進行后續工作。

transform()：使用fit計算好的內容進行轉換。

也就是說可以通過fit()方法，生成1個數據對應的標準，使用這個標準，對其他數據，通過transform方法進行轉換。

2.估計器

python機器學習算法與數據降維的示例分析

估計器就是已經實現了的算法的API，可以直接調用，輸入相關數據，對結果進行預測等。

估計器工作流程：

1.調用fit(x_train, y_train)，輸入訓練集

2.輸入測試集的數據（x_test, y_test），調用不同接口可得不同結果

API①：y_predict = predict(x_test)，該接口可獲得算法對y的預測值。

API②：score(x_test, y_test) ，該接口可獲得預測的準確率。

以上是“python機器學習算法與數據降維的示例分析”這篇文章的所有內容，感謝各位的閱讀！希望分享的內容對大家有幫助，更多相關知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
SpringBoot事件發布和監聽的示例分析
下一篇新聞：
python機器學習中特征工程算法的示例分析

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女