【演演算法】關聯規則挖掘演演算法-知識星球

小編邀請您，先思考：

1 關聯演演算法有什麼應用？

2 關聯演演算法如何實現？

溫馨提示：加入圈子或者商務合作，請加微信：luqin360

關聯規則挖掘是一種基於規則的機器學習演演算法，該演演算法可以在大資料庫中發現感興趣的關係。它的目的是利用一些度量指標來分辨資料庫中存在的強規則。也即是說關聯規則挖掘是用於知識發現，而非預測，所以是屬於無監督的機器學習方法。

“尿布與啤酒”是一個典型的關聯規則挖掘的例子，沃爾瑪為了能夠準確瞭解顧客在其門店的購買習慣，對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪利用所有使用者的歷史購物資訊來進行挖掘分析，一個意外的發現是：”跟尿布一起購買最多的商品竟是啤酒！

關聯規則挖掘演演算法不僅被應用於購物籃分析，還被廣泛的應用於網頁瀏覽偏好挖掘，入侵檢測，連續生產和生物資訊學領域。

與序列挖掘演演算法不同的是，傳統的關聯規則挖掘演演算法通常不考慮事務內或者事件之間的順序。

支援度和置信度

那麼我們如何能夠從所有可能規則的集合中選擇感興趣的規則呢？需要利用一些度量方法來篩選和過濾，比較有名的度量方法是最小支援度（minimum support）和最小置信度（minimum confidence）。

假定我們一個資料庫包含5條事務，每行表示一個購物記錄，1 表示購買，0 表示沒有購買，如下圖表格所示：

ID | milk | bread | butter | beer | diapers
—-|——|——|——|—-
1 | 1| 1 | 0 | 0 | 0
2| 0| 0| 1| 0| 0
3| 0| 0| 0| 1| 1
4| 1| 1| 1| 0| 0
5| 0| 1| 0| 0| 0

讓 X，Y 各表示為一個 item-set, X ⇒ Y 表示為一條規則（尿布 ⇒ 啤酒就是一條規則），用 T 表示為事務資料庫（並不是說只侷限於事務資料庫）。

支援度（Support）

支援度表示 item-set 在整個 T 中出現的頻率。假定 T 中含有 N 條資料，那麼支援度的計算公式為：

譬如在上面的示例資料庫中，{beer, diaper} 的支援度為 1/5 = 0.2。5 條事務中只有一條事務同事包含 beer和 diaper ，實際使用中我們會設定一個最低的支援度（minimum support），那些大於或等於最低支援度的 X 稱之為頻繁的 item-set 。

置信度（Confidence）

置信度表示為規則 X ⇒ Y 在整個 T 中出現的頻率。而置信度的值表示的意思是在包含了 X 的條件下，還含有 Y 的事務佔總事務的比例。同樣假定 T 中含有 N 條資料，那麼置信度的計算公式為：

譬如再上面的示例資料庫中，{beer, diaper} 的置信度為 0.2/0.2 = 1。錶面在所有包含 beer 的事務中都會一定包含 diaper。同樣的，在實際使用中我們會設定一個最低置信度，那些大於或等於最小置信度的規則我們稱之為是有意義的規則。

Apriori 演演算法

在執行演演算法之前，使用者需要先給定最小的支援度和最小的置信度。
生成關聯規則一般被劃分為如下兩個步驟：
1、利用最小支援度從資料庫中找到頻繁項集。

給定一個資料庫 D ，尋找頻繁項集流程如下圖所示

頻繁項集的流程示意圖

C1 中 {1} 的支援度為 2/4 = 0.5 表示在 D 中的 4 條事務中，{1} 出現在其中的兩條事務中，以後幾個步驟的支援度計算方式也是類似的。假定給定的最小支援度為 0.5，那麼最後我們可以得到一個包含 3 個項的頻繁項集 {2 3 5}。

另外，從圖中我們可以看到 itemset 中所包含的 item 是從 1 增長到 3 的。並且每次增長都是利用上一個 itemset 中滿足支援度的 item 來生成的，這個過程稱之為候選集生成（candidate generation）。譬如說 C2 裡就不包含 C1 中的 4 。

2、利用最小置信度從頻繁項集中找到關聯規則。

同樣假定最小的置信度為 0.5 ，從頻繁項集 {2 3 5} 中我們可以發現規則 {2 3} ⇒ {5} 的置信度為 1 > 0.5 ，所以我們可以說 {2 3} ⇒ {5} 是一個可能感興趣的規則。

從第一步中我們看出每次計算支援度都需要掃描資料庫，這會造成很大的 I/O 開銷，所以有很多變種的演演算法都會在該問題上進行最佳化（FP-Growth）。此外如何有效的生成候選集也是很多變種演演算法最佳化的問題之一(Apriori-all)。

總結

關聯規則是無監督的學習演演算法，能夠很好的用於知識的發現。
缺點是很難嚴重演演算法的有效性，一般只能夠透過肉眼觀察結果是否合理。

參考資料

Association Rule Learning
Data mining: Concepts and Technique
Fast Algorithm For Mining Association Rule (Apriori-all 演演算法)
Mining frequent patterns without candidate generation: a frequent-pattern tree approach (FP-Growth演演算法)

連結：https://www.jianshu.com/p/7d459ace31ab

親愛的讀者朋友們，您們有什麼想法，請點選【寫留言】按鈕，寫下您的留言。

資料人網（http://shujuren.org）誠邀各位資料人來平臺分享和傳播優質資料知識。

公眾號推薦：

360區塊鏈，專註於360度分享區塊鏈內容。

閱讀原文，更多精彩！

分享是收穫，傳播是價值！

贊賞

長按二維碼向我轉賬

受蘋果公司新規定影響，微信 iOS 版的贊賞功能被關閉，可透過二維碼轉賬支援公眾號。

閱讀原文

即將開啟”“小程式

取消
 開啟

【演演算法】關聯規則挖掘演演算法

支援度和置信度

支援度（Support）

置信度（Confidence）

相關性度量

提升度（Lift）

全置信度和最大置信度

KULC 度量 + 不平衡比（IR）

Apriori 演演算法

總結

參考資料

相關推薦

熱門標籤

熱門文章

分享創造快樂

支援度和置信度

支援度（Support）

置信度（Confidence）

相關性度量

提升度（Lift）

全置信度 和 最大置信度

KULC 度量 + 不平衡比（IR）

Apriori 演演算法

總結

參考資料

相關推薦

熱門標籤

熱門文章

分享創造快樂

全置信度和最大置信度