歡迎光臨
每天分享高質量文章

推薦系統、風控模型、知識圖譜,竟然都可以用網路挖掘來實現


提到社交網路分析,推薦系統、風控模型這些名詞,相信你並不陌生,社交網路分析無非是 Pandas+Matplotlib,推薦系統大機率是餘弦相似性、協同過濾,風控則被 LR(邏輯回歸)、XGBoost 這些成熟的模型佔據。


但也許你不知道的是,看似相去甚遠的社交網路分析、推薦系統、金融風險預測,都可以用網路挖掘的思想來實現。網路挖掘還可以應用到其他的領域,比如搜尋引擎知識圖譜城市計算等。

   什麼是網路挖掘


其實與一般意義上的資料挖掘/資料分析殊途同歸,都是透過挖掘/分析方法,獲取資料中的包含的資訊和知識


不同的是,一般意義的資料挖掘是透過演演算法模型(比如常用的回歸、分類、聚類模型)進行描述/預測,網路挖掘則給出了新的解決方式。


透過將資料/問題抽象為網路模型,來幫助我們更好地進行資料分析/資料挖掘。



為什麼要抽象為網路模型?比如我們在一個社交網路中,通常我們怎麼去尋找最具傳播力的大V,一般來說無非把各個使用者的粉絲數排個序。


而網挖掘的思路不太一樣,我們可以透過構建使用者相互關註的網路模型來尋找出大V,這裡我們關註的是在資訊傳播中真正的影響力(很多時候,粉絲最多的,並不一定是最具傳播力的)。


除此之外,我們還可以看到網路中不同的組群(比如不同愛好的群體)、分佈的密度等等,這可以從宏觀上去幫助我們分析整個資料樣本中的關係


基於社交網路的組群發現


可以說網路挖掘在基本的描述性統計方面又更進了一步,從關鍵節點的識別到組群發現,從某種程度上,可以發現很多我們做一般的描述性分析所得不到的深刻洞見。

   網路模型如何實現


網路挖掘無非是把問題抽象為網路的模型來進行分析,所以對於網路建模來說,我們主要是要去瞭解節點和連邊。而對於節點的重要性,中心性則是關鍵的指標;對於節點間的關係,傳遞性和相似度有著重要的意義。


以及網路相似衡量指標:節點度數分佈聚類繫數平均路徑長度等等。


網路的節點和連邊


當然更重要的是,在面對真實的問題或者資料的時候,如何將實際的問題抽象為網路模型,我們也稱為問題形式化


比如對於不同的領域,我們通常可以構建這樣的一些網路。



比如我們有這樣一份資料(Stack Overflow 的使用者技能資料),用技能間的連線的值表示技能之間的相關性權重。



根據技能之間的關係,我們就可以構建如下網路模型,你看著這個網路很嚇人,其實用networkx(Python庫)來構建,也就是幾行程式碼的事情。



透過這個網路模型我們就可以發現很多有意思的事情,比如蘋果系的開發技能(ios/mac)是聚在一塊,windows 系開發聚在一塊,網頁開發也是如此,這就是不同的社群。如果跟這些社群都有連結的,一定是一些相對通用的技能,比如 Linux、Git、Python 等。


當然,這隻是網路模型探索的開始,後續還有很多有意思的問題(幫助我們發現更多知識,應用到不同的業務模型中):


  • 鏈路預測(最短路徑)

  • 關鍵節點挖掘(尋找權威節點)

  • 網路遍歷(搜尋與檢索)

  • 社群發現(組群畫像)

  • 相似節點挖掘(相似性推薦)

  網路挖掘的應用


網路挖掘在使用者畫像、商品推薦、金融風險評估、城市交通最佳化、流言資訊傳播等方面有著廣泛的應用。很多業務用一般的資料挖掘方法效果不佳的,加入網路模型之後,卻能大幅提升。可以說網路挖掘的應用舞臺無限寬廣……


網頁排序

比如谷歌的 PageRank,本身也是在構建龐大的網頁網路模型的基礎上(網頁為節點,超鏈為邊),透過計算不同網頁的中心度(權重),來對網頁進行排序,從而實現更加精準的搜尋和推薦。


社交網路分析

社交網路天然適合構建網路模型進行分析,比如資訊的傳播預測、影響力分析、社交組群發現、好友推薦、使用者畫像等等,單獨拿出來看個體,和其他的個體拿出來看,發現一些不一樣的東西。從某種程度說,社交網路分析是建立在網路模型分析的基礎之上。


推薦系統

傳統的協同過濾演演算法的基本思想是,將與標的使用者選擇相似性度較高的使用者喜歡的商品,推薦給標的使用者。而網路模型的加入(比如好友網路、商品網路),怎麼可以很大程度上解決多樣性問題、冷啟動問題、社會推薦問題,從而提升某些場景下的推薦精度。


知識圖譜

網路挖掘在知識圖譜中也發揮著重要的作用,比如遍歷與路徑探尋、關鍵節點挖掘等。PatientsLikeMe.com 將病人、病癥、醫院、醫生、藥品等等醫療資料組織成知識圖譜。在圖譜上,醫生可以搜尋家族病史網路,查詢相似病例及解決方案;病人可以搜尋疾病相關的病癥、藥品、醫生、相似病例等。


所以,網路挖掘其實是強化了資料分析/挖掘的技能,以一種全新的視角,探索更為全面、宏觀的網路知識,以及個體之間的關係。


如果你本身有一定的資料分析/資料挖掘技能,熟悉網路模型的構建,你將獲得更多細分領域工作的加分,比如:


知識圖譜 


使用者畫像


推薦系統


當然,即便是一般意義上的資料分析/資料挖掘,網路模型的思維也是一次巨大的技能飛越,這將讓你站在更高的維度,思考更全面更宏觀的問題,包括個體之間的聯絡及業務的底層邏輯。

   網路挖掘學習


基於網路模型的理念,DC學院設計了一門體系的課程,從網路挖掘的基礎知識到網路模型的建立與視覺化從核心演演算法的應用到業務問題的深入探索,全部給你整的明明白白。


最關鍵的是,課程中包含了目前主流的網路型別的詳細實踐過程,比如社交網路、金融網路、商品偏好網路、城市交通網路、醫療網路等等。


你可以獲得其他的分析方法得不到的深刻洞見,並以此指導實際業務中的決策;你能夠透過網路挖掘去構建真正的商業模型,比如社交推薦與訊息傳播模型、商品推薦系統、金融風控模型等,這才是資料真正產生價值的地方。


新課首發,限額底價

¥399原價¥499),限前50名


課程詳情/名額預定,掃下方二維碼



課程諮詢、免費試看,請加入下方群聊

若群滿,加Alice微信:datacastle2017


《網路挖掘》課程Q&A;


Q:課程是錄播還是直播課?

課程採用精修錄播形式,購課後立即開課學習,你可以自由安排學習時間和頻率,有效期內可反覆觀看。


Q:課程的更新進度如何?

目前課程影片已上線前兩章,後四章會以每週更新的形式上傳完畢。


Q:課程有效期多久?

課程有效期從課程影片全部上線完成後算起,有效期為6個月(建議2-3個月即可學完本門課程),可以透過積分延長至1年。


Q:課程使用什麼程式語言/工具?

Python/networkx/numpy/pandas


Q:需要準備什麼基礎?

課程中的每行程式碼都會講解它的意義,所以零基礎也能順利跟著老師走下去,當然對Python有一定瞭解會更好!


Q:課程中的程式碼會分享麼?

我們會將課程中的程式碼打包,在學習入口的每節課程資料中呈現,可以隨時下載,同時還會有更多的延伸案例及拓展知識。


Q:課程有助教和答疑麼?

開通課程後,可加入學習群,助教會每天在群內答疑,同時我們也會收集大家的共性問題整理學習資料並分享。

?點選“閱讀原文”,瞭解課程詳情。

贊(0)

分享創造快樂