溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python數據分析需要學習哪方面的數學知識

發布時間:2020-11-13 13:50:18 來源:億速云 閱讀:208 作者:小新 欄目:編程語言

這篇文章將為大家詳細講解有關Python數據分析需要學習哪方面的數學知識,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

因為不知道所學的數學知識到底有什么用。對于IT公司的研發人員來說,他們在進入大數據相關崗位前,總是覺得要先學點數學,但是茫茫的數學世界,哪里才是數據技術的盡頭?

一談到數據技術,很多人首先想到的是數學,大概是因為數字在數學體系中穩固的位置吧,這也是理所當然的。本文對數據技術的數學基礎這個問題進行一些探討。

我們知道數學的三大分支,即代數、幾何與分析,每個分支隨著研究的發展延伸出來很多小分支。在這個數學體系中,與大數據技術有密切關系的數學基礎主要有以下幾類。(關于這些數學方法在大數據技術中的應用參見《互聯網大數據處理技術與應用》一書, 2017,清華大學出版社)

(1)概率論與數理統計

這部分與大數據技術開發的關系非常密切,條件概率、獨立性等基本概念、隨機變量及其分布、多維隨機變量及其分布、方差分析及回歸分析、隨機過程(特別是Markov)、參數估計、Bayes理論等在大數據建模、挖掘中就很重要。大數據具有天然的高維特征,在高維空間中進行數據模型的設計分析就需要一定的多維隨機變量及其分布方面的基礎。Bayes定理更是分類器構建的基礎之一。除了這些這些基礎知識外,條件隨機場CRF、隱Markov模型、n-gram等在大數據分析中可用于對詞匯、文本的分析,可以用于構建預測分類模型。

當然以概率論為基礎的信息論在大數據分析中也有一定作用,比如信息增益、互信息等用于特征分析的方法都是信息論里面的概念。

(2)線性代數

這部分的數學知識與數據技術開發的關系也很密切,矩陣、轉置、秩 分塊矩陣、向量、正交矩陣、向量空間、特征值與特征向量等在大數據建模、分析中也是常用的技術手段。

在互聯網大數據中,許多應用場景的分析對象都可以抽象成為矩陣表示,大量Web頁面及其關系、微博用戶及其關系、文本集中文本與詞匯的關系等等都可以用矩陣表示。比如對于Web頁面及其關系用矩陣表示時,矩陣元素就代表了頁面a與另一個頁面b的關系,這種關系可以是指向關系,1表示a和b之間有超鏈接,0表示a,b之間沒有超鏈接。著名的PageRank算法就是基于這種矩陣進行頁面重要性的量化,并證明其收斂性。

以矩陣為基礎的各種運算,如矩陣分解則是分析對象特征提取的途徑,因為矩陣代表了某種變換或映射,因此分解后得到的矩陣就代表了分析對象在新空間中的一些新特征。所以,奇異值分解SVD、PCA、NMF、MF等在大數據分析中的應用是很廣泛的。

(3)最優化方法

模型學習訓練是很多分析挖掘模型用于求解參數的途徑,基本問題是:給定一個函數f:A→R,尋找一個元素a0∈A,使得對于所有A中的a,f(a0)≤f(a)(最小化);或者f(a0)≥f(a)(最大化)。優化方法取決于函數的形式,從目前看,最優化方法通常是基于微分、導數的方法,例如梯度下降、爬山法、最小二乘法、共軛分布法等。

(4)離散數學

離散數學的重要性就不言而喻了,它是所有計算機科學分支的基礎,自然也是數據技術的重要基礎。這里就不展開了。

最后,需要提的是,很多人認為自己數學不好,數據技術開發應用也做不好,其實不然。要想清楚自己在大數據開發應用中充當什么角色。參考以下的大數據技術研究應用的切入點,上述數學知識主要體現在數據挖掘與模型層上,這些數學知識和方法就需要掌握了。

當然其他層次上,使用這些數學方法對于改進算法也是非常有意義的,例如在數據獲取層,可以利用概率模型估計爬蟲采集頁面的價值,從而能做出更好的判斷。在大數據計算與存儲層,利用矩陣分塊計算實現并行計算。

關于Python數據分析需要學習哪方面的數學知識就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女