歡迎光臨
每天分享高質量文章

資料科學中的數學——必備知識點+常用知識點示例+推薦學習資源

   

   作為一名資料科學家,我們至少需要掌握哪些數學知識?本文為您一一列舉,並解讀它們


1函式、變數、方程和圖表


1.1 
必備的知識點      

    建議從最基本的知識點(如線性方程組、二項式定理)開始入手,重點掌握:

  • 對數,指數,多項式函式,有理數。

  • 基本幾何定理,三角恆等式。

  • 實數和複數的基本屬性。

  • 序列,加總,不等式。

  • 繪圖,笛卡爾系、極坐標系,圓錐曲線。

1.2
常用知識點的舉例

   如果您想要在排序後瞭解搜索在百萬級別資料庫上的運行速度,您將會遇到二進制搜索的概念。要瞭解它的動態變化,需要瞭解對數和遞推方程。或者,如果您想分析時間序列,您可能會遇到周期函式和指數衰減等概念。


1.3
學習資源的推薦  
  • Data Science Math SkillsCoursera

  • Introduction to AlgebraedX

  • Khan Academy Algebra



2 統計學                                 



2.1
必備知識點              

     在資料科學家成長的過程中,不能過度強調掌握統計和概率的重要性。很多人甚至認為經典的機器學習(非神經網絡)只是統計學習。這個主題太過於廣泛了。因此,畫清楚重點是很有必要的。


  • 資料摘要和描述性統計,集中趨勢,方差,協方差,相關性,

  • 概率的基本概念,期望,概率演算,貝葉斯定理,條件概率,

  • 概率分佈函式 :均勻分佈,正態分佈,二項式分佈,卡方分佈,學生t-分佈,中心極限定理,

  • 採樣,測量,誤差,隨機數生成,

  • 假設檢驗,A / B檢驗,置信區間,p值,

  • 方差分析,t檢驗

  • 線性回歸,正則化

       

2.2
常用知識點的舉例   

     在同行交流中,如果你能掌握以上所有的概念,你會很快給對方留下深刻的印象。作為資料科學家,你幾乎處處都要用到這些概念。

2.3
學習資源的推薦     
  • Statistics with R specialization —Coursera, Duke University

  • Statistics and Probability in Data Science using Python — edX, Univ of California San Diego

  • Business Statistics and Analysis Specialization — Coursera, Rice University



3   線性代數             


3.1
必備知識點                          

   什麼是常用的?矩陣和矩陣代數。這是學習數學的一個重要分支,用於理解大多數機器學習演算法如何在資料流上工作以創建洞察力。以下是要學習的基本內容

  • 可矩陣和向量的基本屬性 – 標量乘法,線性變換,轉置,共軛,秩,行列式,

  • 矩陣乘法規則和各種演算法,矩陣逆,

  • 特殊矩陣 – 方陣,單位矩陣,三角矩陣,稀疏和密集矩陣的思想,單位向量,對稱矩陣,Hermitian,skew-Hermitian和酉矩陣,

  • 矩陣分解概念/ LU分解,高斯/高斯 – 喬丹消除,求解Ax = b方程的線性系統,

  • 矢量空間,基,跨度,正交性,線性最小二乘,

  • 特征值,特征向量和對角化,奇異值分解(SVD)

      

3.2 
常用知識點的舉例     

     如果您使用了降維技術主成分分析(PCA),那麼您可能已經使用奇異值分解來實現資料降維。通常,絕大多數神經網絡演算法都使用線性代數技術來表示和處理網絡結構和學習操作。

3.3
學習資源的推薦        
  • Linear Algebra: Foundation to Frontier— edX, UT Austin

  • Mathematics for Machine Learning: Linear Algebra — Coursera, Imperial College, London




4 微積分              


4.1
必備的知識點        

    無論你喜歡它還是在大學期間都討厭它,事實上微積分的概念和應用在資料科學或機器學習領域的許多地方出現。它隱藏在線性回歸中普通最小二乘問題的簡單分析解決方案背後,或者嵌入到神經網絡學習新樣式的每個反向傳播中。以下是要學習的方面。

  • 單變數,極限,連續性和可微性

  • 中值定理,不確定形式和L’Hospital規則,

  • 極小值,

  • 泰勒序列,無限級數求和/積分概念

  • 積分計算的基本和中值定理,對有限和不正確積分的評價,

  • Beta和Gamma功能,

  • 多變數的函式,極限,連續性,偏導數,

  • 普通和偏微分方程的基礎知識

4.2
常用知識點的舉例   

   想知道如何實現邏輯回歸演算法?它很有可能使用一種稱為“梯度下降”的方法來找到最小損失函式。要瞭解這是如何實現的,您需要使用來自微積分的概念 – 梯度,導數,極限和鏈式求導法則。

4.3
學習資源的推薦     
  • Pre-University Calculus — edX, TU Delft

  • Khan Academy Calculus all content

  • Mathematics for Machine Learning: Multivariable Calculus — Coursera, Imperial College, London




5   離散數學               


5.1
必備的知識點       

    通常,離散數學是“資料科學的數學”中較少討論的主題,但事實是所有現代資料科學都是在計算系統的幫助下完成的,離散數學是這類系統的核心。這裡是要學習的一些重點。

  • 集,子集,冪集

  • 計數功能,組合,可數性

  • 基本證明方法 – 歸納法、反證法

  • 歸納,演繹和命題邏輯的基礎知識

  • 基本資料結構 – 堆棧,佇列,圖形,陣列,哈希表,樹

  • 圖表屬性 – 連接組件,度,最大流量/最小切割概念,圖形著色

  • 遞迴關係和方程

  • 函式的增長和On)符號概念

5.2
常用知識點的舉例

   在社交網絡分析中,您需要知道圖的屬性和快速演算法以搜索和遍歷網絡。在任何演算法選擇中,您都需要通過使用 O(n)(Big-Oh)表示法來瞭解時間和空間複雜度,即運行時間和空間要求如何隨輸入資料大小而增長。


5.3
學習資源的推薦 
  • Introduction to Discrete Mathematics for Computer Science Specialization — Cousera, Univ. of California San Diego

  • Introduction to Mathematical Thinking — Coursera, Stanford

  • Master Discrete Mathematics: Sets, Math Logic, and More — Udemy



6 優化論與運籌學     


6.1
必備的知識點     

     此部分應用數學中的傳統話語沒什麼不同,因為它們在專業領域 – 理論計算機科學,控制理論或運籌學 – 中最為相關和最廣泛使用。然而,在機器學習的實踐中,對這些強大技術的基本理解可以非常有成效。實際上,每種機器學習演算法/技術都旨在最小化受各種約束影響的某種估計誤差。那就是優化問題。要學習的內容:

  • 優化的基礎 – 如何制定問題

  • 最大值,最小值,凸函式,全域性解

  • 線性規劃,單純形演算法

  • 整數編程

  • 約束編程,背包問題


6.2
常用知識點的舉例   

    使用最小平方損失函式的簡單線性回歸問題通常具有精確的解析解。但邏輯回歸問題卻沒有。要理解原因,您需要瞭解優化中凸性的概念。這一調查也將闡明為什麼我們必須對大多數機器學習問題中的“近似”解決方案保持滿意。


6.3
學習資源的推薦  
  • Optimization Methods in Business Analytics — edX, MIT

  • Discrete Optimization — Coursera, University of Melbourne

  • Deterministic Optimization — edX, Georgia Tech

備註,本文由李昊璟、朝樂門負責翻譯、編輯、排版和校對。原文提名為《Essential Math for Data Science — ‘Why’ and ‘How》,作者 為Tirthajyoti Sarkar,URL為https://towardsdatascience.com/essential-math-for-data-science-why-and-how-e88271367fbd。轉載請註明出處。

版權宣告:本號內容部分來自互聯網,轉載請註明原文鏈接和作者,如有侵權或出處有誤請和我們聯繫。

關聯閱讀

原創系列文章:

1:從0開始搭建自己的資料運營指標體系(概括篇)

2 :從0開始搭建自己的資料運營指標體系(定位篇)

3 :從0開始搭建自己的資料運營體系(業務理解篇)

4 :資料指標的構建流程與邏輯

5 :系列 :從資料指標到資料運營指標體系

6:   實戰 :為自己的公號搭建一個資料運營指標體系

7:  從0開始搭建自己的資料運營指標體系(運營活動分析)

資料運營 關聯文章閱讀:  

運營入門,從0到1搭建資料分析知識體系    

推薦 :資料分析師與運營協作的9個好習慣

乾貨 :手把手教你搭建資料化用戶運營體系

推薦 :最用心的運營資料指標解讀

乾貨 : 如何構建資料運營指標體系

從零開始,構建資料化運營體系

乾貨 :解讀產品、運營和資料三個基友關係

乾貨 :從0到1搭建資料運營體系

資料分析、資料產品 關聯文章閱讀:

乾貨 :資料分析團隊的搭建和思考

關於用戶畫像那些事,看這一文章就夠了

資料分析師必需具備的10種分析思維。

如何構建大資料層級體系,看這一文章就夠了

乾貨 : 聚焦於用戶行為分析的資料產品

如何構建大資料層級體系,看這一文章就夠了

80%的運營註定了打雜?因為你沒有搭建出一套有效的用戶運營體系

從底層到應用,那些資料人的必備技能

讀懂用戶運營體系:用戶分層和分群

做運營必須掌握的資料分析思維,你還敢說不會做資料分析

合作請加qq:365242293  


更多相關知識請回覆:“ 月光寶盒 ”;

資料分析(ID : ecshujufenxi )互聯網科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。

赞(0)

分享創造快樂