成為頂尖機器學習演演算法專家需要知道哪些演演算法？-知識星球

機器學習演演算法簡介

有兩種方法可以對你現在遇到的所有機器學習演演算法進行分類。

第一種演演算法分組是學習風格的。
第二種演演算法分組是透過形式或功能相似。

通常，這兩種方法都能概括全部的演演算法。但是，我們將重點關註透過相似性對演演算法進行分組。

透過學習風格分組的機器學習演演算法

演演算法可以透過不同的方式對問題進行建模，但是，無論我們想要什麼結果都需要資料。此外，演演算法在機器學習和人工智慧中很流行。讓我們來看看機器學習演演算法中的三種不同學習方式：

監督學習

基本上，在監督機器學習中，輸入資料被稱為訓練資料，並且具有已知的標簽或結果，例如垃圾郵件/非垃圾郵件或股票價格。在此，透過訓練過程中準備模型。此外，還需要做出預測。並且在這些預測錯誤時予以糾正。訓練過程一直持續到模型達到所需水平。

示例問題：分類和回歸。

示例演演算法：邏輯回歸和反向傳播神經網路。

無監督學習

在無監督機器學習中，輸入資料未標記且沒有已知結果。我們必須透過推導輸入資料中存在的結構來準備模型。這可能是提取一般規則，但是我們可以透過數學過程來減少冗餘。

示例問題：聚類，降維和關聯規則學習。

示例演演算法：Apriori演演算法和k-Means。

半監督學習

輸入資料是標記和未標記示例的混合。存在期望的預測問題，但該模型必須學習組織資料以及進行預測的結構。

示例問題：分類和回歸。

示例演演算法：其他靈活方法的擴充套件。

由功能的相似性分組的演演算法

ML演演算法通常根據其功能的相似性進行分組。例如，基於樹的方法以及神經網路的方法。但是，仍有演演算法可以輕鬆適應多個類別。如學習向量量化，這是一個神經網路方法和基於實體的方法。

回歸演演算法

回歸演演算法涉及對變數之間的關係進行建模，我們在使用模型進行的預測中產生的錯誤度量來改進。

這些方法是資料統計的主力，此外，它們也已被選入統計機器學習。最流行的回歸演演算法是：

普通最小二乘回歸（OLSR）；

線性回歸；

Logistic回歸；

逐步回歸；

多元自適應回歸樣條（MARS）；

區域性估計的散點圖平滑（LOESS）；

基於實體的演演算法

該類演演算法是解決實體訓練資料的決策問題。這些方法構建了示例資料的資料庫，它需要將新資料與資料庫進行比較。為了比較，我們使用相似性度量來找到最佳匹配併進行預測。出於這個原因，基於實體的方法也稱為贏者通吃方法和基於記憶的學習，重點放在儲存實體的表示上。因此，在實體之間使用相似性度量。最流行的基於實體的演演算法是：

k-最近鄰（kNN）；

學習向量量化（LVQ）；

自組織特徵對映（SOM）；

本地加權學習（LWL）；

正則化演演算法

我在這裡列出了正則化演演算法，因為它們很流行，功能強大。並且通常對其他方法進行簡單的修改，最流行的正則化演演算法是：

嶺回歸；

最小絕對收縮和選擇運算元（LASSO）；

彈性網回歸；

最小角回歸（LARS）；

決策樹演演算法

決策樹方法用於構建決策模型，這是基於資料屬性的實際值。決策在樹結構中進行分叉，直到對給定記錄做出預測決定。決策樹通常快速準確，這也是機器學習從業者的最愛的演演算法。最流行的決策樹演演算法是：

分類和回歸樹（CART）；

迭代Dichotomiser 3（ID3）；

C4.5和C5.0（強大方法的不同版本）；

卡方自動互動檢測（CHAID）；

決策樹樁；

M5；

條件決策樹；

貝葉斯演演算法

這些方法適用於貝葉斯定理的問題，如分類和回歸。最流行的貝葉斯演演算法是：

樸素貝葉斯；

高斯樸素貝葉斯；

多項樸素貝葉斯；

平均一依賴估計量（AODE）；

貝葉斯信念網路（BBN）；

貝葉斯網路（BN）；

聚類演演算法

幾乎所有的聚類演演算法都涉及使用資料中的固有結構，這需要將資料最佳地組織成最大共性的組。最流行的聚類演演算法是：

K-均值；

K-平均；

期望最大化（EM）；

分層聚類；

關聯規則學習演演算法

關聯規則學習方法提取規則，它可以完美的解釋資料中變數之間的關係。這些規則可以在大型多維資料集中被髮現是非常重要的。最流行的關聯規則學習演演算法是：

Apriori演演算法；

Eclat演演算法；

人工神經網路演演算法

這些演演算法模型大多受到生物神經網路結構的啟發。它們可以是一類樣式匹配，可以被用於回歸和分類問題。它擁有一個巨大的子領域，因為它擁有數百種演演算法和變體。最流行的人工神經網路演演算法是：

感知機；

反向傳播；

Hopfield神經網路；

徑向基函式神經網路（RBFN）

深度學習演演算法

深度學習演演算法是人工神經網路的更新。他們更關心構建更大更複雜的神經網路。最流行的深度學習演演算法是：

深玻爾茲曼機（DBM）；

深信仰網路（DBN）；

摺積神經網路（CNN）；

堆疊式自動編碼器；

降維演演算法

與聚類方法一樣，維數減少也是為了尋求資料的固有結構。通常，視覺化維度資料是非常有用的。此外，我們可以在監督學習方法中使用它。

主成分分析（PCA）；

主成分回歸（PCR）；

偏最小二乘回歸（PLSR）；

Sammon Mapping；

多維縮放（MDS）；

投影追蹤；

線性判別分析（LDA）；

高斯混合判別分析（MDA）；

二次判別分析（QDA）；

費舍爾判別分析（FDA）；

常用機器學習演演算法串列

樸素貝葉斯分類器機器學習演演算法

通常，網頁、檔案和電子郵件進行分類將是困難且不可能的。這就是樸素貝葉斯分類器機器學習演演算法的用武之地。分類器其實是一個分配總體元素值的函式。例如，垃圾郵件過濾是樸素貝葉斯演演算法的一種流行應用。因此，垃圾郵件過濾器是一種分類器，可為所有電子郵件分配標簽“垃圾郵件”或“非垃圾郵件”。基本上，它是按照相似性分組的最流行的學習方法之一。這適用於流行的貝葉斯機率定理。

K-means：聚類機器學習演演算法

通常，K-means是用於聚類分析的無監督機器學習演演算法。此外，K-Means是一種非確定性和迭代方法，該演演算法透過預定數量的簇k對給定資料集進行操作。因此，K-Means演演算法的輸出是具有在簇之間分離的輸入資料的k個簇。

支援向量機學習演演算法

基本上，它是用於分類或回歸問題的監督機器學習演演算法。SVM從資料集學習，這樣SVM就可以對任何新資料進行分類。此外，它的工作原理是透過查詢將資料分類到不同的類中。我們用它來將訓練資料集分成幾類。而且，有許多這樣的線性超平面，SVM試圖最大化各種類之間的距離，這被稱為邊際最大化。

SVM分為兩類：

線性SVM：線上性SVM中，訓練資料必須透過超平面分離分類器。
非線性SVM：在非線性SVM中，不可能使用超平面分離訓練資料。

Apriori機器學習演演算法

這是一種無監督的機器學習演演算法。我們用來從給定的資料集生成關聯規則。關聯規則意味著如果發生專案A，則專案B也以一定機率發生，生成的大多數關聯規則都是IF_THEN格式。例如，如果人們購買iPad，那麼他們也會購買iPad保護套來保護它。Apriori機器學習演演算法工作的基本原理：如果專案集頻繁出現，則專案集的所有子集也經常出現。

線性回歸機器學習演演算法

它顯示了2個變數之間的關係，它顯示了一個變數的變化如何影響另一個變數。

決策樹機器學習演演算法

決策樹是圖形表示，它利用分支方法來舉例說明決策的所有可能結果。在決策樹中，內部節點表示對屬性的測試。因為樹的每個分支代表測試的結果，並且葉節點表示特定的類標簽，即在計算所有屬性後做出的決定。此外，我們必須透過從根節點到葉節點的路徑來表示分類。

隨機森林機器學習演演算法

它是首選的機器學習演演算法。我們使用套袋方法建立一堆具有隨機資料子集的決策樹。我們必須在資料集的隨機樣本上多次訓練模型，因為我們需要從隨機森林演演算法中獲得良好的預測效能。此外，在這種整合學習方法中，我們必須組合所有決策樹的輸出，做出最後的預測。此外，我們透過輪詢每個決策樹的結果來推匯出最終預測。

Logistic回歸機器學習演演算法

這個演演算法的名稱可能有點令人困惑，Logistic回歸演演算法用於分類任務而不是回歸問題。此外，這裡的名稱“回歸”意味著線性模型適合於特徵空間。該演演算法將邏輯函式應用於特徵的線性組合，這需要預測分類因變數的結果。

結論

我們研究了機器學習演演算法，並瞭解了機器學習演演算法的分類：回歸演演算法、基於實體的演演算法、正則化演演算法、決策樹演演算法、貝葉斯演演算法、聚類演演算法、關聯規則學習演演算法、人工神經網路演演算法、深度學習演演算法、降維演演算法、整合演演算法、監督學習、無監督學習、半監督學習、樸素貝葉斯分類器演演算法、K-means聚類演演算法、支援向量機演演算法、Apriori演演算法、線性回歸和Logistic回歸。熟悉這類演演算法有助你成為機器學習領域的專家！

轉自：雲棲社群；

END

版權宣告：本號內容部分來自網際網路，轉載請註明原文連結和作者，如有侵權或出處有誤請和我們聯絡。

關聯閱讀：

原創系列文章：

1：從0開始搭建自己的資料運營指標體系（概括篇）

2 ：從0開始搭建自己的資料運營指標體系（定位篇）

3 ：從0開始搭建自己的資料運營體系（業務理解篇）

4 ：資料指標的構建流程與邏輯

5 ：系列：從資料指標到資料運營指標體系

6: 實戰：為自己的公號搭建一個資料運營指標體系

7: 從0開始搭建自己的資料運營指標體系（運營活動分析）