推薦系統概述-知識星球

(點選上方公號，快速關註我們)

編譯：伯樂線上 – Marticles，英文：Toby Daigle

http://blog.jobbole.com/114167/

“聆忠言者眾，惟智者受益。” — 哈珀·李

許多人把推薦系統視為一種神秘的存在，他們覺得推薦系統似乎知道我們的想法是什麼。Netflix 向我們推薦電影，還有亞馬遜向我們推薦該買什麼樣的商品。推薦系統從早期發展到現在，已經得到了很大的改進和完善，以不斷地提高使用者體驗。儘管推薦系統中許多都是非常複雜的系統，但其背後的基本思想依然十分簡單。

推薦系統是什麼？

推薦系統是資訊過濾系統的一個子類，它根據使用者的偏好和行為，來向用戶呈現他(或她)可能感興趣的物品。推薦系統會嘗試去預測你對一個物品的喜好，以此向你推薦一個你很有可能會喜歡的物品。

如何構建一個推薦系統？

現在已經有很多種技術來建立一個推薦系統了，我選擇向你們介紹其中最簡單，也是最常用的三種。他們是：一，協同過濾；二，基於內容的推薦系統；三，基於知識的推薦系統。我會解釋前面的每個系統相關的弱點，潛在的缺陷，以及如何去避免它們。最後，我在文章末尾為你們準備了一個推薦系統的完整實現。

協同過濾

協同過濾，是首次被用於推薦系統上的技術，至今仍是最簡單且最有效的。協同過濾的過程分為這三步：一開始，收集使用者資訊，然後以此生成矩陣來計算使用者關聯，最後作出高可信度的推薦。這種技術分為兩大類：一種基於使用者，另一種則是基於組成環境的物品。

基於使用者的協同過濾

基於使用者的協同過濾本質上是尋找與我們的標的使用者具有相似品味的使用者。如果Jean-Pierre和Jason曾對幾部電影給出了相似的評分，那麼我們認為他們就是相似的使用者，接著我們就可以使用Jean Pierre的評分來預測Jason的未知評分。例如，如果Jean-Pierre喜歡星球大戰3:絕地武士歸來和星球大戰5:帝國反擊戰，Jason也喜歡絕地武士歸來，那麼帝國反擊戰對Jason來說是就是一個很好的推薦。一般來說，你只需要一小部分與Jason相似的使用者來預測他的評價。

在下表中，每行代表一個使用者，每列代表一部電影，只需簡單地查詢這個矩陣中行之間的相似度，就可以找到相似的使用者了。

然而，基於使用者的協同過濾在實現中存在一些以下問題：

使用者偏好會隨時間的推移而改變，推薦系統生成的許多推薦可能會隨之變得過時。
使用者的數量越多，生成推薦的時間就越長。
基於使用者會導致對託攻擊敏感，這種攻擊方法是指惡意人員透過繞過推薦系統，使得特定物品的排名高於其他物品。
(託攻擊即Shilling Attack,是一種針對協同過濾根據近鄰偏好產生推薦的特點，惡意註入偽造的使用者模型，推高或打壓標的排名，從而達到改變推薦系統結果的攻擊方式)

基於物品的協同過濾

基於物品的協同過濾過程很簡單。兩個物品的相似性基於使用者給出的評分來算出。讓我們回到Jean-Pierre與Jason的例子，他們兩人都喜歡“絕地武士歸來”和“帝國反擊戰”。因此，我們可以推斷，喜歡第一部電影的大多數使用者也可能會喜歡第二部電影。所以，對於喜歡“絕地武士歸來”的第三個人Larry來說，”帝國反擊戰“的推薦將是有意義的。

所以，這裡的相似度是根據列而不是行來計算的(與上面的使用者-電影矩陣中所見的不同)。基於物品的協同過濾常常受到青睞，因為它沒有任何基於使用者的協同過濾的缺點。首先，系統中的物品(在這個例子中物品就是電影)不會隨著時間的推移而改變，所以推薦會越來越具有關聯性。此外，通常推薦系統中的物品都會比使用者少，這減少了推薦的處理時間。最後，考慮到沒有使用者能夠改變系統中的物品，這種系統要更難於被欺騙或攻擊。

基於內容的推薦系統

在基於內容的推薦系統中，元素的描述性屬性被用來構成推薦。“內容Content”一詞指的就是這些描述。舉個例子，根據Sophie的聽歌歷史，推薦系統註意到她似乎喜歡鄉村音樂。因此，系統可以推薦相同或相似型別的歌曲。更複雜的推薦系統能夠發現多個屬性之間的關係，從而產生更高質量的推薦。例如，音樂基因組計劃(Music Genome Project)根據450個不同的屬性將資料庫中的每支歌曲進行分類。該專案為Pandor的歌曲推薦提供技術支援。(Pandor提供線上音樂流媒體服務，類似Spolify)

基於知識的推薦系統

基於知識的推薦系統在物品購買頻率很低的情況下特別適用。例如房屋、汽車、金融服務甚至是昂貴的奢侈品。在這種情況下，推薦的過程中常常缺乏商品的評價。基於知識的推薦系統不使用評價來作出推薦。相反，推薦過程是基於顧客的需求和商品描述之間的相似度，或是對特定使用者的需求使用約束來進行的。這使得這種型別的系統是獨一無二的，因為它允許顧客明確地指定他們想要什麼。關於約束，當應用時，它們大多是由該領域的專家實施的，這些專家從一開始就知道該如何實施這些約束。例如，當使用者明確指出在一個特定的價格範圍內尋找一個家庭住宅時，系統必須考慮到這個使用者規定的約束。

混合推薦系統

文章到目前為止所介紹的不同型別的推薦系統都各有優劣，他們根據不同的資料給出推薦。一些推薦系統，如基於知識的推薦系統，在資料量有限的冷啟動環境下最為有效。其他系統，如協同過濾，在有大量資料可用時則更加有效。在多數情況下，資料都是多樣化的，我們可以為同一任務靈活採用多種方法。因此，我們可以結合多種不同技術的推薦來提高整個系統的推薦質量。許多的組合性技術已經被探索出來了，包括：

加權：為推薦系統中的每種演演算法都賦予不同的權重，使得推薦偏向某種演演算法
交叉：將所有的推薦結果集合在一起展現，沒有偏重
增強：一個系統的推薦將作為下一個系統的輸入，迴圈直至最後一個系統為止
切換：隨機選擇一種推薦方法

混合推薦系統中的一個最有名的例子是於2006至2009年舉行的Netflix Price演演算法競賽。這個競賽的標的是將Netflix的電影推薦系統Cinematch的演演算法準確率提高至少10%。Bellkor’s Pragmatix Chaos團隊用一種融合了107種不同演演算法的方案將Cinematch系統的推薦準確率提高了10.06%，並最終獲得了100萬美元獎金。你可能會對這個例子中的準確率感到好奇，準確率其實就是對電影的預測評分與實際評分接近程度的度量。

推薦系統與AI？

推薦系統常用於人工智慧領域。推薦系統的能力 – 洞察力，預測事件的能力和突出關聯的能力常被用於人工智慧中。另一方面，機器學習技術常被用於實現推薦系統。例如，在Arcbees，我們使用了神經網路和來自IMdB的資料成功建立了一個電影評分預測系統。神經網路可以快速地執行複雜的任務並輕鬆地處理大量資料。透過使用電影串列作為神經網路的輸入，並將神經網路的輸出與使用者評分進行比較，神經網路可以自我學習規則以預測特定使用者的未來評分。

專家建議

在我讀過許多資料中，我註意到有兩個很重要的建議經常被推薦系統領域內的專家提及。第一，基於使用者付費的物品進行推薦。當一個使用者有購買意願時，你就可以斷定他的評價一定是更具有相關性與準確的。第二，使用多種演演算法總是比改進一種演演算法要好。Netflix Prize競賽就是一個很好的例子。

實現一個基於物品的推薦系統

下麵的程式碼演示了實現一個基於物品的推薦系統是多麼的簡單與快速。所使用的語言是Python，並使用了Pandas與Numpy這兩個在推薦系統領域中最流行的庫。所使用的資料是電影評分，資料集來自MovieLens。

第一步：尋找相似的電影

1.讀取資料

import pandas as pd

import numpy as np

ratings_cols = [‘user_id’, ‘movie_id’, ‘rating’]

ratings = pd.read_csv(‘u.data’, sep=‘t’, names=ratings_cols, usecols=range(3))

movies_cols = [‘movie_id’, ‘title’]

movies = pd.read_csv(‘u.item’, sep=‘|’, names=movies_cols, usecols=range(2))

ratings = pd.merge(ratings, movies)

2.構造使用者的電影矩陣

movieRatings = ratings.pivot_table(index=[‘user_id’],columns=[‘title’],values=’rating’)

3.選擇一部電影並生成這部電影與其他所有電影的相似度

starWarsRatings = movieRatings[‘Star Wars (1977)’]

similarMovies = movieRatings.corrwith(starWarsRatings)

similarMovies = similarMovies.dropna()

df = pd.DataFrame(similarMovies)

4.去除不流行的電影以避免生成不合適的推薦

ratingsCount = 100

movieStats = ratings.groupby(‘title’).agg({‘rating’: [np.size, np.mean]})

popularMovies = movieStats[‘rating’][‘size’] >= ratingsCount

movieStats[popularMovies].sort_values([(‘rating’, ‘mean’)], ascending=False)[:15]

5.提取與標的電影相類似的流行電影

df = movieStats[popularMovies].join(pd.DataFrame(similarMovies, columns=[‘similarity’]))

df.sort_values([‘similarity’], ascending=False)[:15]

第二步：基於使用者的所有評分做出推薦

1.生成每兩部電影之間的相似度，並只保留流行電影的相似度

userRatings = ratings.pivot_table(index=[‘user_id’],columns=[‘title’],values=‘rating’)

corrMatrix = userRatings.corr(method=‘pearson’, min_periods=100)

2.對於每部使用者看過並評分過的電影，生成推薦（這裡我們選擇使用者0）

myRatings = userRatings.loc[0].dropna()

simCandidates = pd.Series()

for i in range(0, len(myRatings.index)):

    #取出與評分過電影相似的電影

    sims = corrMatrix[myRatings.index[i]].dropna()

    #以使用者對這部電影的評分高低來衡量它的相似性

    sims = sims.map(lambda x: x * myRatings[i])

    #將結果放入相似性候選串列中

simCandidates = simCandidates.append(sims)

simCandidates.sort_values(inplace = True, ascending = False)

3.將所有相同電影的相似度加和

simCandidates = simCandidates.groupby(simCandidates.index).sum()

simCandidates.sort_values(inplace = True, ascending = False)

4.只保留使用者沒有看過的電影

filteredSims = simCandidates.drop(myRatings.index)

如何更進一步？

在上面的實體中，Pandas與我們的CPU足以處理MovieLens的資料集。然而，當資料集變得更龐大時，處理的時間也會變得更加漫長。因此，你應該轉為使用具有更強大處理能力的解決方案，如Spark或MapReduce。

我希望我已經成功讓你看到，實現一個簡單而有效的推薦系統中並沒有什麼複雜之處。如果你有任何問題，不要猶豫，直接評論就好了。

【關於投稿】

如果大家有原創好文投稿，請直接給公號傳送留言。

① 留言格式：
【投稿】+《文章標題》+ 文章連結

② 示例：
【投稿】《不要自稱是程式員，我十多年的 IT 職場總結》：

http://blog.jobbole.com/94148/

③ 最後請附上您的個人簡介哈~

覺得本文有幫助？請分享給更多人

關註「演演算法愛好者」，修煉程式設計內功

推薦系統概述