歡迎光臨
每天分享高質量文章

成為頂尖機器學習演算法專家需要知道哪些演算法?


機器學習演算法簡介


有兩種方法可以對你現在遇到的所有機器學習演算法進行分類。


  • 第一種演算法分組是學習風格的。

  • 第二種演算法分組是通過形式或功能相似。


通常,這兩種方法都能概括全部的演算法。但是,我們將重點關註通過相似性對演算法進行分組。


通過學習風格分組的機器學習演算法



演算法可以通過不同的方式對問題進行建模,但是,無論我們想要什麼結果都需要資料。此外,演算法在機器學習和人工智慧中很流行。讓我們來看看機器學習演算法中的三種不同學習方式:


監督學習



基本上,在監督機器學習中,輸入資料被稱為訓練資料,並且具有已知的標簽或結果,例如垃圾郵件/非垃圾郵件或股票價格。在此,通過訓練過程中準備模型。此外,還需要做出預測。並且在這些預測錯誤時予以糾正。訓練過程一直持續到模型達到所需水平。


示例問題:分類和回歸。

示例演算法:邏輯回歸和反向傳播神經網絡。


無監督學習



在無監督機器學習中,輸入資料未標記且沒有已知結果。我們必須通過推導輸入資料中存在的結構來準備模型。這可能是提取一般規則,但是我們可以通過數學過程來減少冗餘。


示例問題:聚類,降維和關聯規則學習。

示例演算法:Apriori演算法和k-Means。


半監督學習



輸入資料是標記和未標記示例的混合。存在期望的預測問題,但該模型必須學習組織資料以及進行預測的結構。


示例問題:分類和回歸。

示例演算法:其他靈活方法的擴展。


由功能的相似性分組的演算法


ML演算法通常根據其功能的相似性進行分組。例如,基於樹的方法以及神經網絡的方法。但是,仍有演算法可以輕鬆適應多個類別。如學習矢量量化,這是一個神經網絡方法和基於實體的方法。


回歸演算法



回歸演算法涉及對變數之間的關係進行建模,我們在使用模型進行的預測中產生的錯誤度量來改進。


這些方法是資料統計的主力,此外,它們也已被選入統計機器學習。最流行的回歸演算法是:


普通最小二乘回歸(OLSR);

線性回歸;

Logistic回歸;

逐步回歸;

多元自適應回歸樣條(MARS);

區域性估計的散點圖平滑(LOESS);


基於實體的演算法



該類演算法是解決實體訓練資料的決策問題。這些方法構建了示例資料的資料庫,它需要將新資料與資料庫進行比較。為了比較,我們使用相似性度量來找到最佳匹配併進行預測。出於這個原因,基於實體的方法也稱為贏者通吃方法和基於記憶的學習,重點放在儲存實體的表示上。因此,在實體之間使用相似性度量。最流行的基於實體的演算法是:


k-最近鄰(kNN);

學習矢量量化(LVQ);

自組織特征映射(SOM);

本地加權學習(LWL);


正則化演算法



我在這裡列出了正則化演算法,因為它們很流行,功能強大。並且通常對其他方法進行簡單的修改,最流行的正則化演算法是:


嶺回歸;

最小絕對收縮和選擇算子(LASSO);

彈性網回歸;

最小角回歸(LARS);


決策樹演算法



決策樹方法用於構建決策模型,這是基於資料屬性的實際值。決策在樹結構中進行分叉,直到對給定記錄做出預測決定。決策樹通常快速準確,這也是機器學習從業者的最愛的演算法。最流行的決策樹演算法是:


分類和回歸樹(CART);

迭代Dichotomiser 3(ID3);

C4.5和C5.0(強大方法的不同版本);

卡方自動交互檢測(CHAID);

決策樹樁;

M5;

條件決策樹;


貝葉斯演算法



這些方法適用於貝葉斯定理的問題,如分類和回歸。最流行的貝葉斯演算法是:


朴素貝葉斯;

高斯朴素貝葉斯;

多項朴素貝葉斯;

平均一依賴估計量(AODE);

貝葉斯信念網絡(BBN);

貝葉斯網絡(BN);


聚類演算法



幾乎所有的聚類演算法都涉及使用資料中的固有結構,這需要將資料最佳地組織成最大共性的組。最流行的聚類演算法是:


K-均值;

K-平均;

期望最大化(EM);

分層聚類;


關聯規則學習演算法



關聯規則學習方法提取規則,它可以完美的解釋資料中變數之間的關係。這些規則可以在大型多維資料集中被髮現是非常重要的。最流行的關聯規則學習演算法是:


Apriori演算法;

Eclat演算法;


人工神經網絡演算法



這些演算法模型大多受到生物神經網絡結構的啟發。它們可以是一類樣式匹配,可以被用於回歸和分類問題。它擁有一個巨大的子領域,因為它擁有數百種演算法和變體。最流行的人工神經網絡演算法是:


感知機;

反向傳播;

Hopfield神經網絡;

徑向基函式神經網絡(RBFN)


深度學習演算法



深度學習演算法是人工神經網絡的更新。他們更關心構建更大更複雜的神經網絡。最流行的深度學習演算法是:


深玻爾茲曼機(DBM);

深信仰網絡(DBN);

捲積神經網絡(CNN);

堆疊式自動編碼器;


降維演算法



與聚類方法一樣,維數減少也是為了尋求資料的固有結構。通常,可視化維度資料是非常有用的。此外,我們可以在監督學習方法中使用它。


主成分分析(PCA);

主成分回歸(PCR);

偏最小二乘回歸(PLSR);

Sammon Mapping;

多維縮放(MDS);

投影追蹤;

線性判別分析(LDA);

高斯混合判別分析(MDA);

二次判別分析(QDA);

費舍爾判別分析(FDA);


常用機器學習演算法串列



朴素貝葉斯分類器機器學習演算法


通常,網頁、文件和電子郵件進行分類將是困難且不可能的。這就是朴素貝葉斯分類器機器學習演算法的用武之地。分類器其實是一個分配總體元素值的函式。例如,垃圾郵件過濾是朴素貝葉斯演算法的一種流行應用。因此,垃圾郵件過濾器是一種分類器,可為所有電子郵件分配標簽“垃圾郵件”或“非垃圾郵件”。基本上,它是按照相似性分組的最流行的學習方法之一。這適用於流行的貝葉斯概率定理。


K-means:聚類機器學習演算法


通常,K-means是用於聚類分析的無監督機器學習演算法。此外,K-Means是一種非確定性和迭代方法,該演算法通過預定數量的簇k對給定資料集進行操作。因此,K-Means演算法的輸出是具有在簇之間分離的輸入資料的k個簇。


支持向量機學習演算法


基本上,它是用於分類或回歸問題的監督機器學習演算法。SVM從資料集學習,這樣SVM就可以對任何新資料進行分類。此外,它的工作原理是通過查找將資料分類到不同的類中。我們用它來將訓練資料集分成幾類。而且,有許多這樣的線性超平面,SVM試圖最大化各種類之間的距離,這被稱為邊際最大化。


SVM分為兩類:


  • 線性SVM:在線性SVM中,訓練資料必須通過超平面分離分類器。

  • 非線性SVM:在非線性SVM中,不可能使用超平面分離訓練資料。


Apriori機器學習演算法


這是一種無監督的機器學習演算法。我們用來從給定的資料集生成關聯規則。關聯規則意味著如果發生專案A,則專案B也以一定概率發生,生成的大多數關聯規則都是IF_THEN格式。例如,如果人們購買iPad,那麼他們也會購買iPad保護套來保護它。Apriori機器學習演算法工作的基本原理:如果專案集頻繁出現,則專案集的所有子集也經常出現。


線性回歸機器學習演算法


它顯示了2個變數之間的關係,它顯示了一個變數的變化如何影響另一個變數。


決策樹機器學習演算法


決策樹是圖形表示,它利用分支方法來舉例說明決策的所有可能結果。在決策樹中,內部節點表示對屬性的測試。因為樹的每個分支代表測試的結果,並且葉節點表示特定的類標簽,即在計算所有屬性後做出的決定。此外,我們必須通過從根節點到葉節點的路徑來表示分類。


隨機森林機器學習演算法


它是首選的機器學習演算法。我們使用套袋方法創建一堆具有隨機資料子集的決策樹。我們必須在資料集的隨機樣本上多次訓練模型,因為我們需要從隨機森林演算法中獲得良好的預測性能。此外,在這種集成學習方法中,我們必須組合所有決策樹的輸出,做出最後的預測。此外,我們通過輪詢每個決策樹的結果來推匯出最終預測。


Logistic回歸機器學習演算法


這個演算法的名稱可能有點令人困惑,Logistic回歸演算法用於分類任務而不是回歸問題。此外,這裡的名稱“回歸”意味著線性模型適合於特征空間。該演算法將邏輯函式應用於特征的線性組合,這需要預測分類因變數的結果。


結論


我們研究了機器學習演算法,並瞭解了機器學習演算法的分類:回歸演算法、基於實體的演算法、正則化演算法、決策樹演算法、貝葉斯演算法、聚類演算法、關聯規則學習演算法、人工神經網絡演算法、深度學習演算法、降維演算法、集成演算法、監督學習、無監督學習、半監督學習、朴素貝葉斯分類器演算法、K-means聚類演算法、支持向量機演算法、Apriori演算法、線性回歸和Logistic回歸。熟悉這類演算法有助你成為機器學習領域的專家!

轉自:雲棲社區 ;

END

版權宣告:本號內容部分來自互聯網,轉載請註明原文鏈接和作者,如有侵權或出處有誤請和我們聯繫。


關聯閱讀:

原創系列文章:

1:從0開始搭建自己的資料運營指標體系(概括篇)

2 :從0開始搭建自己的資料運營指標體系(定位篇)

3 :從0開始搭建自己的資料運營體系(業務理解篇)

4 :資料指標的構建流程與邏輯

5 :系列 :從資料指標到資料運營指標體系

6:   實戰 :為自己的公號搭建一個資料運營指標體系

7:  從0開始搭建自己的資料運營指標體系(運營活動分析)

資料運營 關聯文章閱讀:  

運營入門,從0到1搭建資料分析知識體系    

推薦 :資料分析師與運營協作的9個好習慣

乾貨 :手把手教你搭建資料化用戶運營體系

推薦 :最用心的運營資料指標解讀

乾貨 : 如何構建資料運營指標體系

從零開始,構建資料化運營體系

乾貨 :解讀產品、運營和資料三個基友關係

乾貨 :從0到1搭建資料運營體系

資料分析、資料產品 關聯文章閱讀:

乾貨 :資料分析團隊的搭建和思考

關於用戶畫像那些事,看這一文章就夠了

資料分析師必需具備的10種分析思維。

如何構建大資料層級體系,看這一文章就夠了

乾貨 : 聚焦於用戶行為分析的資料產品

如何構建大資料層級體系,看這一文章就夠了

80%的運營註定了打雜?因為你沒有搭建出一套有效的用戶運營體系

從底層到應用,那些資料人的必備技能

讀懂用戶運營體系:用戶分層和分群

做運營必須掌握的資料分析思維,你還敢說不會做資料

合作請加qq:365242293  


更多相關知識請回覆:“ 月光寶盒 ”;

資料分析(ID : ecshujufenxi )互聯網科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。

赞(0)

分享創造快樂