歡迎光臨
每天分享高質量文章

推薦系統、風控模型、知識圖譜,竟然都可以用網絡挖掘來實現


提到社交網絡分析,推薦系統、風控模型這些名詞,相信你並不陌生,社交網絡分析無非是 Pandas+Matplotlib,推薦系統大概率是餘弦相似性、協同過濾,風控則被 LR(邏輯回歸)、XGBoost 這些成熟的模型占據。


但也許你不知道的是,看似相去甚遠的社交網絡分析、推薦系統、金融風險預測,都可以用網絡挖掘的思想來實現。網絡挖掘還可以應用到其他的領域,比如搜索引擎知識圖譜城市計算等。

   什麼是網絡挖掘


其實與一般意義上的資料挖掘/資料分析殊途同歸,都是通過挖掘/分析方法,獲取資料中的包含的信息和知識


不同的是,一般意義的資料挖掘是通過演算法模型(比如常用的回歸、分類、聚類模型)進行描述/預測,網絡挖掘則給出了新的解決方式。


通過將資料/問題抽象為網絡模型,來幫助我們更好地進行資料分析/資料挖掘。



為什麼要抽象為網絡模型?比如我們在一個社交網絡中,通常我們怎麼去尋找最具傳播力的大V,一般來說無非把各個用戶的粉絲數排個序。


而網挖掘的思路不太一樣,我們可以通過構建用戶相互關註的網絡模型來尋找出大V,這裡我們關註的是在信息傳播中真正的影響力(很多時候,粉絲最多的,並不一定是最具傳播力的)。


除此之外,我們還可以看到網絡中不同的組群(比如不同愛好的群體)、分佈的密度等等,這可以從宏觀上去幫助我們分析整個資料樣本中的關係


基於社交網絡的組群發現


可以說網絡挖掘在基本的描述性統計方面又更進了一步,從關鍵節點的識別到組群發現,從某種程度上,可以發現很多我們做一般的描述性分析所得不到的深刻洞見。

   網絡模型如何實現


網絡挖掘無非是把問題抽象為網絡的模型來進行分析,所以對於網絡建模來說,我們主要是要去瞭解節點和連邊。而對於節點的重要性,中心性則是關鍵的指標;對於節點間的關係,傳遞性和相似度有著重要的意義。


以及網絡相似衡量指標:節點度數分佈聚類繫數平均路徑長度等等。


網絡的節點和連邊


當然更重要的是,在面對真實的問題或者資料的時候,如何將實際的問題抽象為網絡模型,我們也稱為問題形式化


比如對於不同的領域,我們通常可以構建這樣的一些網絡。



比如我們有這樣一份資料(Stack Overflow 的用戶技能資料),用技能間的連線的值表示技能之間的相關性權重。



根據技能之間的關係,我們就可以構建如下網絡模型,你看著這個網絡很嚇人,其實用networkx(Python庫)來構建,也就是幾行代碼的事情。



通過這個網絡模型我們就可以發現很多有意思的事情,比如蘋果系的開發技能(ios/mac)是聚在一塊,windows 系開發聚在一塊,網頁開發也是如此,這就是不同的社區。如果跟這些社區都有鏈接的,一定是一些相對通用的技能,比如 Linux、Git、Python 等。


當然,這隻是網絡模型探索的開始,後續還有很多有意思的問題(幫助我們發現更多知識,應用到不同的業務模型中):


  • 鏈路預測(最短路徑)

  • 關鍵節點挖掘(尋找權威節點)

  • 網絡遍歷(搜索與檢索)

  • 社區發現(組群畫像)

  • 相似節點挖掘(相似性推薦)

  網絡挖掘的應用


網絡挖掘在用戶畫像、商品推薦、金融風險評估、城市交通優化、流言信息傳播等方面有著廣泛的應用。很多業務用一般的資料挖掘方法效果不佳的,加入網絡模型之後,卻能大幅提升。可以說網絡挖掘的應用舞臺無限寬廣……


網頁排序

比如谷歌的 PageRank,本身也是在構建龐大的網頁網絡模型的基礎上(網頁為節點,超鏈為邊),通過計算不同網頁的中心度(權重),來對網頁進行排序,從而實現更加精準的搜索和推薦。


社交網絡分析

社交網絡天然適合構建網絡模型進行分析,比如信息的傳播預測、影響力分析、社交組群發現、好友推薦、用戶畫像等等,單獨拿出來看個體,和其他的個體拿出來看,發現一些不一樣的東西。從某種程度說,社交網絡分析是建立在網絡模型分析的基礎之上。


推薦系統

傳統的協同過濾演算法的基本思想是,將與標的用戶選擇相似性度較高的用戶喜歡的商品,推薦給標的用戶。而網絡模型的加入(比如好友網絡、商品網絡),怎麼可以很大程度上解決多樣性問題、冷啟動問題、社會推薦問題,從而提升某些場景下的推薦精度。


知識圖譜

網絡挖掘在知識圖譜中也發揮著重要的作用,比如遍歷與路徑探尋、關鍵節點挖掘等。PatientsLikeMe.com 將病人、病癥、醫院、醫生、藥品等等醫療資料組織成知識圖譜。在圖譜上,醫生可以搜索家族病史網絡,查詢相似病例及解決方案;病人可以搜索疾病相關的病癥、藥品、醫生、相似病例等。


所以,網絡挖掘其實是強化了資料分析/挖掘的技能,以一種全新的視角,探索更為全面、宏觀的網絡知識,以及個體之間的關係。


如果你本身有一定的資料分析/資料挖掘技能,熟悉網絡模型的構建,你將獲得更多細分領域工作的加分,比如:


知識圖譜 


用戶畫像


推薦系統


當然,即便是一般意義上的資料分析/資料挖掘,網絡模型的思維也是一次巨大的技能飛越,這將讓你站在更高的維度,思考更全面更宏觀的問題,包括個體之間的聯繫及業務的底層邏輯。

   網絡挖掘學習


基於網絡模型的理念,DC學院設計了一門體系的課程,從網絡挖掘的基礎知識到網絡模型的建立與可視化從核心演算法的應用到業務問題的深入探索,全部給你整的明明白白。


最關鍵的是,課程中包含了目前主流的網絡型別的詳細實踐過程,比如社交網絡、金融網絡、商品偏好網絡、城市交通網絡、醫療網絡等等。


你可以獲得其他的分析方法得不到的深刻洞見,並以此指導實際業務中的決策;你能夠通過網絡挖掘去構建真正的商業模型,比如社交推薦與訊息傳播模型、商品推薦系統、金融風控模型等,這才是資料真正產生價值的地方。


新課首發,限額底價

¥399原價¥499),限前50名


課程詳情/名額預定,掃下方二維碼



課程咨詢、免費試看,請加入下方群聊

若群滿,加Alice微信:datacastle2017


《網絡挖掘》課程Q&A;


Q:課程是錄播還是直播課?

課程採用精修錄播形式,購課後立即開課學習,你可以自由安排學習時間和頻率,有效期內可反覆觀看。


Q:課程的更新進度如何?

目前課程視頻已上線前兩章,後四章會以每周更新的形式上傳完畢。


Q:課程有效期多久?

課程有效期從課程視頻全部上線完成後算起,有效期為6個月(建議2-3個月即可學完本門課程),可以通過積分延長至1年。


Q:課程使用什麼編程語言/工具?

Python/networkx/numpy/pandas


Q:需要準備什麼基礎?

課程中的每行代碼都會講解它的意義,所以零基礎也能順利跟著老師走下去,當然對Python有一定瞭解會更好!


Q:課程中的代碼會分享麽?

我們會將課程中的代碼打包,在學習入口的每節課程資料中呈現,可以隨時下載,同時還會有更多的延伸案例及拓展知識。


Q:課程有助教和答疑麽?

開通課程後,可加入學習群,助教會每天在群內答疑,同時我們也會收集大家的共性問題整理學習資料並分享。

?點擊“閱讀原文”,瞭解課程詳情。

赞(0)

分享創造快樂