歡迎光臨
每天分享高質量文章

【應用】 信用評分:第7部分 – 信用風險模型的進一步考慮


筆者邀請您,先思考:

1 信用評分如何結果過擬合問題?

2 信用評分如何處理不平衡資料集?

以滿足科學模型開發的主要標誌 – 嚴謹性,可測試性,可複製性和精確性以及可信度 – 考慮模型驗證以及如何處理不平衡資料非常重要。 本文概述了可用於滿足這些標誌的高階驗證框架,並簡要介紹了處理不平衡資料時常用的方法。

高階驗證框架

“太好了以致於不真實” – 任何很好地擬合資料的預測模型應該被認為是可疑的。透過構建複雜的高效能預測模型,資料科學家經常會造成建模錯誤,稱為過擬合。 過擬合 – 發生在模型完全適合訓練資料集但未能在訓練資料集上進行推廣 – 是一個基本問題,也是預測模型的最大威脅結果是對新的(看不見的,樣本外的)資料集的預測很差。

圖1.模型過擬合

存在許多驗證框架用於檢測和最小化過度擬合。它們在演演算法複雜度,計算能力和魯棒性方面不同。兩種簡單而常用的技術是:

簡單驗證 – 隨機或分層分割成訓練和測試集。
巢狀holdout驗證 – 隨機或分層分割成訓練集,驗證集和測試集。訓練集訓練不同的模型,在驗證樣本上進行相互比較,冠軍模型透過對測試集的不可見資料進行驗證。

這兩種方法的主要缺點是,適用於可用資料子集的模型仍然可能會出現過度擬合。對於包含少量觀測值的資料集尤其如此。

在調整模型引數時,會出現另一個簡單驗證問題,並不斷測試同一測試樣本的模型效能。這導致資料洩漏,因為模型有效地從測試樣本中“學習”,這意味著測試樣本不再是真正的holdout樣本,並且過度擬合可能成為問題。巢狀holdout驗證可以在一定程度上解決問題,但是這種方法需要大量的資料,這可能是問題所在。

Bootstrapping和交叉驗證是兩個驗證框架,專門用於剋服過度擬合問題和更徹底地捕獲變異源問題。

Bootstrapping採用替換方式進行取樣。標準bootstrap驗證過程從原始資料中隨機建立M個不同樣本,大小相同。該模型適用於每個bootstrap樣本,並隨後對整個資料進行測試以測量效能。

交叉驗證(CV)透過系統地交換樣本進行測試和訓練來適合整個總體的資料。交叉驗證有多種形式,包括:

  • k折 – 將總體劃分為K個相同大小的樣本,併在訓練/測試分割上執行K次迭代

  • 留一法

  • 分層

  • 巢狀交叉驗證

除了引數調整和/或變數選擇以外,如果我們想驗證模型,則需要巢狀交叉驗證。它由一個內部和一個外部CV組成。內部CV用於引數調整或變數選擇,而外部CV用於模型驗證。

透過一些修改, bootstrapping和交叉驗證可以同時實現三個不同的標的:

  • 模型驗證

  • 變數選擇和

  • 引數調整(網格搜尋)。

表2.驗證,選擇和調整的網格搜尋和CV

對不平衡資料建模

“好時不夠好” – 模型準確性(定義為正確預測與樣例總數之比)是用於評估模型效能的典型度量。然而,僅僅透過準確性評估模型的效能本身可能會出現問題,因為我們可能會遇到準確性悖論這樣的問題。例如,假設我們有一個不平衡的訓練資料集,其中標的人群(1%)的比例很小,我們預測誰是欺詐或其他災難性事件。即使沒有預測模型,只要做出相同的猜測“不欺詐”或“沒有災難”,我們的準確率達到99%!然而,這樣的策略會有100%的錯過率,這意味著我們仍然需要一個預測模型來減少錯過率(假陰性,“II型錯誤”)或減少錯誤警報(假陽性,“I型錯誤”)。

正確的效能度量取決於業務標的。有些樣例要求最大限度地減少錯失率,其他樣例更側重於最大限度地減少錯誤警報,特別是如果客戶滿意度是主要標的。基於總體標的,資料科學家需要確定使用不平衡資料建立和評估模型的最佳方法。

使用機器學習演演算法時,不平衡資料可能會成為問題,因為這些資料集可能沒有足夠的關於少數類的資訊。這是因為基於最小化總體錯誤的演演算法偏向於大多數類別,而忽略了我們更感興趣的樣例的貢獻。

用於解決不平衡資料建模問題的兩種常用技術是取樣和整合建模

取樣方法進一步分為欠取樣和過取樣技術。欠取樣包括從多數類中移除樣例並保留完整的少數樣例。過取樣是複製少數類以平衡資料的過程。兩者都旨在建立均衡的訓練資料以使得學習演演算法可以產生較少的偏見結果。這兩種技術都有潛在的缺點:欠取樣可能導致資訊丟失,而過取樣會導致過度擬合。

為了最小化過擬合而開發的一種流行的過取樣技術是合成少數過取樣技術(SMOTE),該技術基於另一種學習技術建立少數情況,通常是KNN演演算法。作為一個經驗法則,如果有大量的觀測資料可用,則使用欠取樣,否則,過取樣是首選方法。

以下步驟概述了使用欠取樣技術的開發步驟的一個簡單示例。

  • 透過按比例選擇所有“壞”病例和“好”病例的隨機樣本,例如分別選擇35%/ 65%,建立一個平衡的訓練檢視。如果存在足夠數量的“不良”情況,則從不平衡訓練分割槽得到欠取樣,否則使用整個群體進行欠取樣。

  • 使用通常的建模步驟選擇最好的一組預測變數:

  • 候選變數的選擇

  • 精細的分類

  • 使用最佳分箱進行粗分類

  • 證據權重或虛擬變換

  • 逐步邏輯回歸模型

  • 如果不是在步驟1中建立的,則將完整的不平衡資料集劃分為訓練和測試分割槽,例如訓練分割槽中的70%,測試分割槽中的30%。保持少數分類在兩個分割槽中的比例相同。

  • 在訓練分割槽上用步驟2中的逐步方法選擇的模型變數訓練模型

  • 驗證測試分割槽上的模型

整合建模是不平衡資料建模的一種選擇。裝袋和提升是典型的技術,用於製造更強的預測器,並剋服過度擬合而不使用欠取樣或過取樣。Bagging 是一個bootstrap彙總,可以建立不同的替換bootstrap,在每個bootstrap上訓練模型並計算平均預測結果。 Boosting透過在每次迭代中逐漸構建一個更強的預測器並從前一次迭代中的錯誤中學習來進行工作。

如上所述,精度不是不平衡資料的首選度量,因為它只考慮正確的預測。但是,同時考慮正確和錯誤的結果,我們可以獲得關於分類模型的更多見解。在這種情況下,有用的績效指標是敏感性(同義詞是召回率,命中率,檢測機率或真陽性率),特異性(真實陰性率)或精確度

除了這三個標量指標之外,在整個行業中佔統治地位的另一個流行指標是ROC曲線。 ROC曲線與“壞”與“好”情況的比例無關,這是重要特徵,特別是對於不平衡資料。如果存在足夠數量的“不良”情況,而不是使用不平衡資料方法,則可以應用標準建模方法,並使用ROC曲線對結果模型進行測試。

系列之前:信用評分:第6部分 – 分割和拒絕推斷
系列之後:信用評分:第8部分 – 信用風險策略

作者:
Natasha Mashanovich, 
Senior Data Scientist at World Programming, 
UK
原文連結:https://www.worldprogramming.com/blog/credit_scoring_pt7

版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。

資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的資料知識!
我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!

加入資料人圈子或者商務合作,請新增筆者微信。


點選閱讀原文,進入資料人網,獲取資料知識。

公眾號推薦:

鏈達君,專註於分享區塊鏈內容。

腳印英語,專註於分享英語口語內容。

贊(0)

分享創造快樂