【智慧】機器學習：信用風險建模中的挑戰，教訓和機遇-知識星球

筆者邀請您，先思考：

1 如何量化信用風險？

2 機器學習如何服務信用風險？

由於資料可用性和計算能力的快速增長，機器學習現在在技術和業務中發揮著至關重要的作用。機器學習對信用風險建模應用程式有重大貢獻。使用兩個大型資料集，我們分析了一組機器學習方法在評估中小型借款人的信用風險方面的表現，其中穆迪分析RiskCalc模型作為基準模型。我們發現機器學習模型提供了與RiskCalc模型相似的準確率。但是，它們比RiskCalc模型更像是一個“黑匣子”，機器學習方法產生的結果有時難以解釋。機器學習方法可以更好地擬合解釋變數與違約風險之間的非線性關係。我們還發現，無論使用何種模型，使用更廣泛的變數來預測預設值都會大大提高準確率。

介紹

機器學習是一種教授計算機解析資料，從中學習，然後對新資料做出決定或預測的方法。該機器不需要手動編碼一組特定的指令來完成特定的任務，而是使用大量的資料和演演算法來“訓練”機器，以學習如何執行任務。機器學習與其低調的姊妹領域統計學習重疊。兩者都試圖從大型資料集中發現並學習樣式和趨勢來進行預測。機器學習領域具有悠久的開發傳統，但最近資料儲存和計算能力的提高使它們在許多不同領域和應用中無處不在，其中許多領域和應用都非常普遍。蘋果的Siri，Facebook的feed和Netflix電影推薦都依賴於某種形式的機器學習。機器學習的最早用途之一是信用風險模型，其標的是使用財務資料來預測違約風險。

當企業申請貸款時，貸方必須評估企業是否能夠可靠地償還貸款本金和利息。貸款人通常使用盈利能力和槓桿作用來評估信用風險。盈利公司會產生足夠的現金來支付利息費用和本金。然而，槓桿率更高的公司擁有較少的資產可用來應對經濟衝擊。給定兩個貸款申請者 – 一個具有高盈利能力和高槓桿率，另一個具有低盈利能力和低槓桿率 – 那個公司信用風險較低？當銀行在信用風險評估過程中納入他們檢查的許多其他維度時，回答這個問題的複雜性就會增加。這些額外維度通常包括其他財務資訊（如流動性比率）或行為資訊（例如貸款/交易信用支付行為）。總結所有這些不同的維度到一個分數是具有挑戰性的，但機器學習技術有助於實現這一標的。

機器學習和傳統統計學習工具背後的共同標的是從資料中學習。這兩種方法都旨在透過使用訓練資料集來調查潛在的關係。通常，統計學習方法假設變數之間存在數學方程的形式關係，而機器學習方法可以從資料中學習，而不需要任何基於規則的程式設計。由於這種靈活性，機器學習方法可以更好地適應資料中的樣式。圖1說明瞭這一點。

圖1 統計模型VS. 機器學習

在這個模擬示例中，第一個圖表顯示了資料點基於X和Y的實際分佈，而紅色的點則被分類為預設值。我們可以把它和地理地圖聯絡起來，其中X軸是經度，Y軸是緯度。紅色區域代表高風險人口統計，我們看到更高的違約率。如預期的那樣，線性統計模型不適合這種複雜的非線性和非單調行為。隨機森林模型是一種廣泛使用的機器學習方法，具有足夠的靈活性來識別熱點，因為它不限於預測線性關係或連續關係。機器學習模型不受傳統統計模型的一些假設限制，可以產生更好的人類分析師無法從資料中推斷出的洞察力。在此，預測與傳統模型形成鮮明對比。

機器學習模型不受傳統統計模型的一些假設限制，可以產生更好的人類分析師無法從資料中推斷出洞察力。

機器學習方法

現在讓我們看看三種不同的機器學習演演算法：人工神經網路，隨機森林和提升。

人工神經網路

人工神經網路（ANN）是生物神經網路的數學模擬。它的簡單形式如圖2所示。在這個例子中，有三個輸入值和兩個輸出值。不同的轉換將輸入值連結到隱藏層，將隱藏層連結到輸出值。在底層資料上，我們使用反向傳播演演算法來訓練人工神經網路。由於許多隱藏層和神經元的存在，神經網路可以很容易地處理解釋變數的非線性和互動效應。

圖2 人工神經網路

隨機森林

隨機森林結合了決策樹預測器，使得每棵樹依賴於獨立取樣的隨機向量的值，並且具有相同的分佈。決策樹是隨機森林的最基本單位。在決策樹中，輸入被輸入到頂部，並且當它遍歷樹時，資料被分成越來越小的子集。在圖3所示的例子中，樹決定了基於三個變數的違約機率：公司規模;利息，稅收，折舊和攤銷前利潤（EBITDA）與利息費用的比率;以及流動負債與銷售額的比率。方框1包含初始資料集，其中39％的公司是違約者，61％是非違約者。 EBITDA利息支出比率低於2.4的公司進入方框2.方框2佔總數的33％，其中100％由違約者構成。其橙色表示較高的違約風險，而藍色表示較低的違約風險。隨機森林方法結合了許多樹的預測，並且最終決策基於獨立的決策樹的輸出的平均值。在這個練習中，我們使用幾棵樹的bootstrap聚合作為一個簡單的基於樹的模型的改進。

圖3 隨機森林

BOOSTING

Boosting類似於隨機森林，但基礎決策樹是根據其效能加權的。考慮一下盲人和大象的寓言，其中要求男人觸控大象的不同部位，然後構造完整的影象。盲人分成六批傳送。第一組被引導到隨機選擇的點，並且每個人的（部分）描述評估它與實際描述的匹配程度。這個小組恰好給出了只有軀幹的準確描述，而對身體其他部分的描述是不準確的。註意到不完整的部分，當第二批盲人進入房間時，他們被引導到這些部分。剩下的批次重覆這個過程。最後，透過按照它們的精確度對這些描述進行加權組合，並且在這種情況下也將身體部位的尺寸加以組合。最後的描述 – 組合 – 很好地描述了大象。

在Boosting中，每一個決策樹都與一群盲人相似，對大象的描述與解決預測問題是同義的。如果一棵樹將違約者誤認為是非違約者，反之亦然，那麼隨後的樹會對錯誤分類的觀察結果給予更多的重視。這種給錯誤分類區域增加權重（或在傳送新組時增加方向）的想法是隨機森林和增強之間的差異。

穆迪分析風險計算模型

RiskCalc模型透過估計一組風險驅動因素的影響，為私營公司產生預期違約機率。它利用廣義加性模型（GAM）框架，在這個框架中，每個風險驅動因素的非線性變換被分配權重併合併成一個單一的分數。連結函式然後將組合得分對映到違約機率。

RiskCalc模型在預測私人公司違約時提供強大的表現。但是它與其他機器學習技術相比如何？我們使用三種流行的機器學習方法來基於RiskCalc樣本作為訓練集開發新模型。我們試圖回答以下問題：機器學習模型在預設預測中是否優於RiskCalc模型的GAM框架？當使用機器學習方法進行信用風險建模時，我們面臨的挑戰是什麼？哪個模型最健壯？哪種模型最容易使用？我們可以從替代模型中學到什麼？

結果

資料描述

為了分析這三種方法的表現，我們考慮兩個不同的資料集。第一個資料集來自穆迪分析信用研究資料庫（CRD），該資料庫也是RiskCalc US 4.0企業模型的驗證樣本。它只利用公司的資訊和財務比率。第二個資料集新增行為資訊，其中包括信用額度使用情況，貸款支付行為和其他貸款型別資料。這些資訊來自貸款會計系統（LAS），作為CRD的一部分收集。我們想要使用機器學習技術和GAM方法測試兩種資料集的違約預測能力。圖4顯示了這兩個資料集的總結。

圖4 資料資訊

模型效能

對於這兩個資料集，我們使用GAM模型的排序能力作為基準。我們使用準確率（AR）統計來衡量等級排序能力。圖5顯示了一組解釋變數。

圖5 PD模型的輸入可變描述

交叉驗證

由於機器學習提供了高水平的建模自由度，因此往往會過度使用資料。如果模型在訓練資料上表現良好，但在評估資料上表現不佳，則模型過擬合了。尋找樣本外預測誤差的標準方法是使用k-fold交叉驗證（CV）。在k倍CV中，資料集被分成k個子集。 k個子集中的一個用作測試集，其他k-1個子集合成一個訓練集。這個過程重覆k次。如果訓練樣本相對於測試樣本的精度比（模型效能的度量）較高，則表示過度擬合。在這種情況下，我們對模型施加更多限制並重覆交叉驗證，直到結果令人滿意。在這個例子中，我們使用了五重交叉驗證。圖6報告了五次試驗的平均AR。

圖6 模型效能

我們觀察到，對於兩個資料集，機器學習模型都比GAM模型好2到3個百分點。無論建模方式如何，當我們新增貸款行為資訊時，準確率提高8到10個百分點。信用額度使用和貸款支付資訊可以補充財務比率，並顯著提高模型預測違約的能力。

機器學習在哪裡勝出

機器學習方法在捕獲非線性關係方面特別有效。我們來仔細看看EBITDA與利息費用比率。直觀地說，這個比率與違約風險有非線性關係。在圖7中，我們將比率劃分為50個百分點，並計算預測違約機率（PD）和實際違約率的平均值。我們用x軸上的百分比與y軸上的預設率（以％表示）進行繪製。違約率隨著息稅折舊攤銷前利潤與利息費用比率的增加而下降。但是，在左側，EBIDTA變為負值時會出現拐點。當EBITDA為負時，由於利息支出減少使得比率更負，所以違約風險應該降低。從圖中我們可以看出，機器學習提升方法比GAM模型更準確地預測實際違約率，特別是在左側。我們也觀察到來自其他比率圖的類似行為。因此，我們觀察到機器學習方法的適度改進預測。

圖7 基於EBITDA的不同價值與利息支出比較機器學習和GAM PD水平

過擬合問題

儘管使用交叉驗證來儘量減少過度擬合，但機器學習模型仍可能產生難以解釋和捍衛的結果。圖8顯示了兩種情況，其中由增強方法確定的PD與由GAM方法確定的PD明顯不同。

圖8 機器學習演演算法的過擬合問題

在案例1中，資產回報率（ROA）低，現金與資產比率低，債務與資本比率高的公司被歸類為安全，隱含評級為A3。直觀地說，正如GAM所預測的那樣，該公司的PD應該反映更高的風險水平。類似地，案例2中，利息支出高，資產回報率高，留存收益高的公司利用助推方法歸類為Caa / C。在這兩種情況下，底層演演算法的複雜性使得難以解釋boosting方法的非直觀PD。基於GAM模型的RiskCalc模型的結果更直觀，更易於解釋。

總結

本練習使用RiskCalc軟體的GAM模型作為基準分析三種機器學習方法的效能。機器學習方法可提供與GAM模型相當的準確率。與RiskCalc模型相比，這些替代方法更適合捕獲信用風險常見的非線性關係。同時，由於其複雜的“黑盒子”性質，這些方法所做的預測有時難以解釋。這些機器學習模型對異常值也很敏感，導致資料過度擬合和違反直覺的預測。此外，也許更有趣的是，我們發現擴充套件資料集以包含貸款行為變數可以使所有建模方法的預測能力提高10個百分點以上。

雖然我們研究的方法都有其優點，並且具有可比較的準確性水平，但我們相信，為了提高預設預測準確性並擴大信用風險建模領域的總體範圍，我們應該將重點放在資料維度上。除財務報表和貸款支付行為資料外，交易資料，社交媒體資料，地理資訊和其他資料等附加資訊可能會增加大量的洞察力。我們必須收集更多不同的非傳統資料，以進一步完善和改進我們評估風險的方法。

作者： Dinesh Bacham, Dr. Janet Zhao
原文連結：

https://www.moodysanalytics.com/risk-perspectives-magazine/managing-disruption/spotlight/machine-learning-challenges-lessons-and-opportunities-in-credit-risk-modeling

版權宣告：作者保留權利，嚴禁修改，轉載請註明原文連結。

資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念：人人投稿，知識共享；人人分析，洞見驅動；智慧聚合，普惠人人。
您在資料人網平臺，可以1）學習資料知識；2）建立資料部落格；3）認識資料朋友；4）尋找資料工作；5）找到其它與資料相關的乾貨。
我們努力堅持做原創，聚合和分享優質的省時的資料知識！
我們都是資料人，資料是有價值的，堅定不移地實現從資料到商業價值的轉換！

加入資料人圈子或者商務合作，請新增筆者微信。

點選閱讀原文，進入資料人網，獲取資料知識。

公眾號推薦：

鏈達君，專註於分享區塊鏈內容。

腳印英語，專註於分享英語口語內容。

【智慧】機器學習：信用風險建模中的挑戰，教訓和機遇

介紹