這篇文章主要介紹“機器學習基本術語有哪些”,在日常操作中,相信很多人在機器學習基本術語有哪些問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”機器學習基本術語有哪些”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
一、數據集
要進行機器學習,首先得有數據。數據集是一組關于研究對象的描述。
如一條條告警消息就是數據集,每條告警消息是一個樣本。
二、樣本
樣本也叫示例,一組樣本組成一個數據集。
三、屬性
樣本會有很多屬性(或特征),如告警消息的觸發器,分組,分類等,屬性對應的值叫屬性值。
四、屬性空間
屬性空間也叫樣本空間,或輸入空間。
假設告警消息有觸發器,分組,分類,告警級別四個屬性,每個屬性一個坐標軸,那么四個屬性可以組成一個四維空間,每條告警消息都可以在這個空間中找到自己的坐標位置。
五、特征向量
每個示例在空間中的坐標向量
六、 輸入空間
一個樣本所有特征的集合
七、
D={x1→,x2→,?,xm→}D={x1→,x2→,?,xm→}:包含 m 個樣本的數據集
xi→=(xi1;xi2;?;xid)xi→=(xi1;xi2;?;xid):dd 維樣本空間 χχ 中的一個向量,xi→∈χ
xijxij:xi→xi→在第 jj 個屬性上的取值,后期可能會用 X? X→ 展示
dd:xi→xi→ 的“維數 dimensionlity”
八、
學習 learning/訓練 training:從數據中學得模型的過程
訓練數據 training data:訓練過程中使用的數據
訓練樣本 training sample:訓練中的每個樣本
假設 hypothesis:學習模型對應了關于數據某種潛在的規律
真相/真實 ground-truth:潛在規律自身
學習器 learner:模型
預測 prediction:獲得訓練樣本的“結果”信息
標記 label:樣本結果的信息
樣例 example:擁有標記信息的樣本
(xi,yi)(xi,yi):第 ii 個樣例,yi∈Y? yi∈Y→ 是示例 xixi 的標記,Y? Y→ 是所有標記的集合
標記空間 label space/輸出空間:所有標記的集合
分類 classification:預測結果是離散值的學習任務
回歸 regression:預測結果是連續值的學習任務
二分類 binary calssification:涉及兩個類別
正類 positive class 和 反類 negative class:“二分類”中的兩個類別
多分類 multi-class classification:涉及多個類別
預測任務:對訓練集 {(x1→,y1),(x2→,y2),?,(xm→,ym)}{(x1→,y1),(x2→,y2),?,(xm→,ym)} 進行學習,建立一個從輸入空間 X? X→ 到 輸出空間 Y? Y→ 的映射 f:X? →Y? f:X→→Y→,通常令 Y? ={?1,+1}Y→={?1,+1} 或 {0,1}{0,1};對于多分類任務,|Y? |>2|Y→|>2;對回歸任務,|Y? |=R|Y→|=R,RR 為實數集
測試 testing:對學得模型進行預測的過程
測試樣本 testing sample:被預測的樣本,例如學得 ff 后,對測試例 x? x→ ,可得到其預測標記 y=f(x)y=f(x)
聚類 clustering:將訓練集中的西瓜分成若干組
簇 cluster:“聚類”中的每一組。每一簇都可能對應一些潛在的概念劃分并且這些概念我們事先是不知道的
泛化 generalization:學得模型適用于新樣本的能力
分布 distribution DD :通常假設樣本空間中全體服從一個未知“分布”
獨立同分布 independent and identically distributed i.i.d.i.i.d.:每個樣本都是獨立地從這個分布上采樣獲得的
科學推理的兩大基本手段:歸納 induction 與 演繹 deduction
歸納:從特殊到一般的“泛化 generalization”過程,即從具體的事實歸結出一般性規律
演繹:從一般到特殊的“特化 specialization”過程,即從基礎原理推演出具體狀況
歸納學習 inductive learning:從樣例中學習
廣義歸納學習:相當于從樣例中學習
狹義歸納學習:從訓練數據中學得概念,因此也稱為“概念學習”或“概念形成”
布爾概念學習:對“是”“不是”這樣的可表示為0/1布爾值的目標概念的學習
學習過程:在所有假設組成的空間中進行搜索的過程,搜索目標是找到與訓練集“匹配 fit”的假設,
假設空間:能將訓練集中的樣本判斷為正確的假設的集合
版本空間 version space:一個與訓練集一致的“假設集合”
“版本空間”中可能有多個假設對應訓練集中的某個樣本,但是多個假設可能有不同的輸出,那么應該采用哪一個模型(或假設)呢?
歸納偏好 inductive bias:算法在學習過程中對某種類型假設的偏好
如果沒有歸納偏好:學得模型預測時時而告訴我們它是好的,時而告訴我們它是不好的
奧卡姆剃刀 Ocam’s razor:若有多個假設與觀察一致,則選最簡單的那個
“沒有免費的午餐”定理 No Free Lunch Theorem:無論學習算法 aa 多聰明、學習算法 bb 多笨拙,它們的期望性能都會相同。
NFL 定理前提:所有“問題”出現的機會相同、或所有問題同等重要
NFL 定理最重要的寓意:空泛的談“什么學習算法更好毫無意義”,因為若考慮所有潛在的問題,則學習算法都一樣好
噪聲:出現不應該出現的數據,例如相同的屬性得出不一樣的分類
機器學習研究的主要內容:在計算機中從數據中產生“模型 model”的算法,即“學習算法 learning algorithm”。
計算機科學研究“算法”;機器學習研究“學習算法”。
大多數時候算法的歸納偏好是否與問題本身匹配,直接決定了算法能否取得好的性能。
到此,關于“機器學習基本術語有哪些”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。