歡迎光臨
每天分享高質量文章

【應用】信用評分卡 : 變數選擇


筆者邀請您,先思考:

1 信用評分卡如何做變數選擇?

2 信用評分卡如何做特徵工程?

上一篇:信用評分卡:分類問題

預測分析中的變數選擇

下麵的故事可以追溯到我開始從物理到商業的轉變。我在週五晚上的派對上遇到了這位投資銀行家。喝完幾品脫啤酒後,他的情緒變得有些陰沉,他告訴我他是如何討厭他的工作。然而,他有一個計劃知道工作到45歲退休。然後他會做一切讓他開心的事情。我很困惑,那麼一個人怎麼能從一種情感(幸福)中擺脫這麼多年,併在以後重新發現?我想知道幸福的秘訣 – 玫瑰上的雨滴和小貓上的鬍鬚。一個人的幸福是一件棘手的事情;然而,我將在後面的關於邏輯回歸的文章中嘗試解決這個問題。現在,讓我們嘗試探索國家如何衡量其人民的集體福利。我將利用這一人口福祉主題來探索分析記分卡開發中的一個有趣話題:變數選擇。

變數選擇 – GDP和GNH的教訓

經濟學家和電影片道一直支援的最流行的衡量國家繁榮的標準是是國內生產總值(GDP)。 如宏觀經濟學101所教授的衡量國內生產總值的等式是:

顯然,根據這個等式,有5個因素/變數影響GDP。 首先把國內生產總值作為衡量國家福利的手段,對我來說似乎並不完整。 GDP的所有變數都來自商業。 它們很重要,但不能成為國家幸福的唯一因素,在印度這樣一個高度多樣化和複雜的國家更是如此。

國民幸福總指數 – Bhutan Naresh的故事

好的,那我們還有什麼? 一個鮮為人知的指標是國民幸福總值(GNH)。 GNH的起源在不丹。 他們透過GNH衡量他們國家的進步。 這個詞是由Jigme Singye Wangchuck創造和實施的。 這個名字立即讓我回到九十年代初期由印度國家廣播公司Doordarshan(DD)進行的南盟高峰會電視直播。 老前輩的印地語評論員指的是一位穿著類似浴袍的謙遜男子,如不丹的國王“不丹之王”(Bhutan Naresh)。 乍一看,他與南亞地區的權力馬匹並不配合。 儘管如此,他似乎設計了一個更全面的指標來衡量他的國家的福祉。 GNH是以下大類的組合:

1.生活水平和收入
2.健康改寫
3.生理健康
4.工作和放鬆的時間
5.好的政府
6.上學和教育
7.文化多樣性
8.社群活力
9.環境保護主義和保守主義

GNH中總共有72個變數以0到1的比例進行衡量,例如每天的睡眠時間和對媒體的信任; 嗯,不是一個糟糕的開始! 你可以自己研究GNH,讓我知道你對它的看法。 實際上,我們可以為GNH度量標準制定出我們自己的公式。 這個想法是選擇正確的變數來建立你的模型!

信用評分中的變數選擇

在資料挖掘和統計模型構建練習中,類似於信用評分,變數選擇過程透過統計顯著性來執行 – 透過先進軟體的合理自動化過程。 但是,這些變數仍然由人類建立和測量。 企業高影響力分析仍然受到預期驅動,人類智慧尚未過時。

在我與一家金融機構合作的專案之一中,信用風險分析和評分的結果導致了對申請表的重新設計。 申請表是與借款人有關的資料收集的主要來源。 但是,沒有人願意填寫冗長的表格,因此表格的最佳尺寸可確保借款人提供準確的資訊。 這個想法是選擇正確的變數並確保準確的測量。

關於變數有幾個方面,但我會在這裡提及其中的一個(粗分類)。

信用評分中的粗分類

作為一個孩子,我最喜歡的活動之一就是去鞋店,並且在學校開學之前每個夏天都要測量一下腳步。 鞋店有一個奇怪的微型滑動裝置來測量腳的大小。 看到我的腳每年或每兩年從一種尺寸增長到另一種尺寸是很有趣的。 增長是量化的,即你的規模為2或3,從不是2.5或2.7。 將諸如2.5和2.7之類的度量轉換為3的這一方面稱為分組,分組或分類。 這是建立記分卡的重要組成部分,您可以在本部落格系列第一部分列出的所有書籍中找到這些記分卡。

在整個職業生涯中,我一直是關於粗糙階級在記分卡開發中的相關性的幾次激烈討論的一部分。在絕大多數情況下,如果不是所有的學術文章,在模型開發過程中,您都很難將粗分類看作技術。不少理論家和實踐者有理由相信,粗分類會導致資訊的丟失。但是,在我看來,粗略分類比使用變數的原始測量具有以下優勢。

1.它減少了原始變數中存在的隨機噪聲 – 類似於平均值,是的,你在這裡丟失了一些資訊。
2.它處理極端事件 – 在變數的兩個極端 – 更好的地方你有精簡資料。
3.它處理依賴變數和自變數之間的非線性關係,而無需分析人員進行大量的變數轉換。

我們在“分析記分卡開發”這個系列的一半中,我很享受寫這個徹底。 我希望作為一個讀者,你也是這樣。 記分卡建設技術性很強,我試圖用易於理解的例子來討論某些方面。 但是,為了管理文章的篇幅,我無法詳細介紹。 我必須說我喜歡細節! 所以,如果您有任何疑問,觀點或建議請留言。

下一篇:信用評分卡:高階分析

作者:Roopam Upadhyay
原文連結:
http://ucanalytics.com/blogs/credit-scorecards-variables-selection-part-3/

版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。

資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的資料知識!
我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!

點選閱讀原文,進入資料人網。

贊(0)

分享創造快樂