歡迎光臨
每天分享高質量文章

推薦 :深入淺出之個性化推薦系統實踐

大資料在網易內部的應用豐富多彩,在《讓機器讀懂用戶–大資料中的用戶畫像》一文中,網易工程師對用戶畫像進行了較為系統的介紹,並提到用戶畫像的一個重要作用在於個性化推薦。但企業怎樣才能正確認識和利用推薦系統來拓展業務?

 

本文對推薦的本質和實現思路進行了深入的探討,並介紹了網易嚴選的推薦系統實踐,讓您充分領略個性化推薦的魅力。

 

  • 推薦系統作用本質

 

有資料稱亞馬遜的推薦系統帶來的GMV占其全站總量的20%-30%。這個資料會讓人直覺地認為,電商網站只要一上好的推薦系統,就會帶來相當高的GMV提升。甚至有產品會問:我們的推薦系統GMV占全站多少?為什麼亞馬遜能做到30%而我們做不到?

想象一下,亞馬遜把推薦系統的位置全換成游戲廣告,每次用戶點擊收取廣告費等同於物品推薦時的單次點擊價值。這時會有什麼結果?合理的推薦是,如果游戲推薦做得足夠精準,這個偽推薦系統的GMV占全站的比例可能越來越高,網站的用戶流失率會顯著增加,總體營收會趨於下降。

這個假設揭露了一個真相:推薦系統的位置本質上就是廣告展現;對於任何一個有流量的站點來說,不斷上升或者穩定的忠實用話是其最大價值;廣告位的展現最好能夠同時不損壞甚至提升用戶體驗。Facebook初上廣告時就遇到一個問題:廣告的投放影響了用戶體驗,會損失用戶忠誠度,造成用戶流失。而對於電商網站來說,為用戶推薦物品,是一種能提升用戶體驗的方向投放,看起來像一種奇妙的巧合。

與搜索類似,推薦的本質就是提升用戶體驗 – 為此它們最主要的方式就是幫助用戶快速的找到它需要的產商品,其他的方式還包括給用戶新穎感等。事實上,亞馬遜宣稱的20%的GMV,其中很多是“你不向用戶推薦他也會購買的東西”,推薦系統在這方面的貢獻是為用戶提供了便利性點擊,節約了用戶的精力。如果沒有推薦系統或者推薦系統很糟,用戶流向競品網站的可能性就會增大,這時造成的損害是在整體GMV上。至於推薦的GMV能占全站的比率是多少才合適,這個問題很難回答。只能說每個站點的基準值由產品的綜合情況決定,不能一概而論。

綜合起來,推薦系統有如下幾個作用:

1. 提升綜合體驗: 幫助用戶節省精力,增加漫游機率,提升頁面訪問量及駐留時間,提升留存率;

2. 提升GMV(由1附帶的效果);

3. 提升印象。

 

推薦的結果,用戶點不點是個非0即1的的事件,但是用戶對它們興趣度是一個介於0到1的連續的數值。興趣度的提升,能提升用戶對網站的信任度,提升留存及LTV。

 

  • 推薦系統工作原理本質
 

在推薦領域被證明有效的演算法非常多,如各種CF(協同過濾)、矩陣分解、基於圖的演算法、關聯規則、各種方式的embedding、融合多種特征的CTR-based方法等。深度學習領域的進展表明,如果有一種最接近上帝的方法,那很可能就是embedding的方法。所謂embedding,數學上的意義就是映射。如word2vec通過語料訓練把詞變成一個數百維的向量,向量的每一維沒有明確的物理意義(或者說我們無法理解)。推薦系統如果可以把人很精確地映射成一個向量,把物品也映射成一個同維度同意義的向量,那麼推薦就是可以按規則處理的精確的事情了。

 

圖1.最佳的推薦形式

 

事實上,電影推薦的確可以這樣做。豆瓣電影推薦是國內推薦系統的先驅之一,它經過多次迭代,最終形成了一種本質上是embedding的方法來實現推薦:用一定的方法把用戶用一系列標簽描述,將電影也樣同樣的標簽空間描述,據此計算用戶與電影的相似度來推薦,得到的推薦效果非常好。

 

圖2.豆瓣基於標簽的電影推薦

 

  • 電商推薦系統的特點

 

電影是一種文化藝術商品,直接與人的感性感受相關;同時它有比較精深的空間,從數學的角度來說,它具有多個維度的屬性,多到可以產生非常豐富的變化,但不至於多到讓人腦難以理解。人對電影的興趣,具有一定的穩定性,不太會發生快速的轉變。

 

在電影的世界里,人與電影都比較容易做embedding。

 

與電影推薦不同,電商推薦就複雜得多了。主要有如下幾點:

1. 商品種類數巨大,不同的商品需要不同的embedding。

 

放在電商的世界里,電影就相當於一種商品。如果要做embedding,用戶與每一物品都要做一組embedding,不同的物品無法統一。比如,喜歡白色T-shirt的用戶,不見得會喜歡白皮鞋;喜歡咸豆漿的用戶,不一定會喜歡咸豆腐腦。而商品的種類可能是數以10萬記的。即始可以針對每種商品做embedding,也很難將它們統一起來。

2. 單種商品深度不夠,難以有效embedding。

 

描述物品的空間維度一般很淺,除了少數的商品(如女士包等)稱得上博大精深,大多數是很簡單的。

3. 人對商品的興趣大都建立在短期或者瞬時需求之上。

 

大部分情況下,人對商品有興趣是因為正好需要商品,而非中長期的喜好。很多情況下,買了某種耐用品之後,人對它的興趣(指購買它的欲望)在很長時間內會降到最低。想要embbeding這種轉瞬即逝的變化,是一件不容易的事情。當然,也有一些商品及一些情況下,用戶的確是對商品有中長期的興趣,比如剛生小孩的父母,很長時間內會對母嬰用品感興趣。在海量的商品與情景中把這些case都找出來,本身是一件不容易的事情。

4. 大量耐消品的影響。

 

上面的論述中可能已經包含這部分。但有必要單獨強調一下:電影是一種極佳的快消品,而在商品的世界里,充滿了海量的慢消品 – 慢消品的特點是一旦滿足用戶興趣就轉移了。

5. 用戶理論上對所有商品都會有興趣。

 

人在一生中,會在不同的時間對大部分商品產生興趣。用戶對商品的大部分情況是短期興趣。一般情況下,用戶短期的興趣難以預測,只能根據用戶明確指時的對哪些商品感興趣;中長期興趣在某些情況下可以挖掘。

基於以上的原因,在電商領域難以找到完美的embedding方式來實現推薦。其實我們在看各大電商的個性化推薦時,無論宣稱背後用怎樣複雜的模型融合,從結果看,用戶近期行為的權重是非常大的,使得結果非常像itemCF推薦出來的。很容易看到,很多大型電商網站首頁的“猜你喜歡”模塊,推薦的基本都是與用戶最近瀏覽相似的物品。

因此,現代電商的推薦往往用機器學習的方法來實現。對於推薦來說,演算法與模型並不是最主要的,重要的是對需求、業務標的、平臺用戶、平臺資料的理解及與之對應的特征工程。

 

  • 網易嚴選推薦實踐
 

網易嚴選推薦的基礎模型採用的是CTR模型,基於LR(邏輯回歸)。

 

圖3.網易嚴選推薦模型

 

在核心的特征工程方面,網易嚴選推薦團隊將用戶的具體屬性(性別、收入水平、地域等)、用戶在網易嚴選的行為屬性(短期、長期)、及時間背景關係(季節、上次購買時間間隔等)作為屬性空間,從1層迪卡爾積開始往上構造N層迪卡爾積形成複雜屬性空間P,挖掘屬性空間與商品的相關,對有明顯相關(正相關或負相關)的(屬性、物品)對構造特征。

 

圖4.用戶屬性空間

 

圖5.具體屬性應用

 

圖6.行為屬性作為抽象屬性與具體屬性置以相同的地位

 圖7.二階屬性(屬性的2重迪卡爾積)

從結果來看,這一套特征工程方法可以挖出比較全的特征集,在魯棒性與效果上都有不錯的效果,自上線以來各項指標均在穩步提升。

 

作者沈燕 網易嚴選演算法工程師

轉自網易雲 [Netease_Cloud]公眾號本文已獲授權

宣告:本號內容部分來自互聯網,轉載請註明原文鏈接和作者,如有侵權或出處有誤請聯繫我們。

    已同步到看一看
    赞(0)

    分享創造快樂