歡迎光臨
每天分享高質量文章

歷史最全-16個推薦系統開放公共資料集整理分享

    (本文由深度學習與NLP編譯)

    本文主要整理了一些與推薦系統相關的高質量的資料集。整理自Stack Overflow、一些文章、推薦站點和學術實驗。其中,大多數資料集都是免費、開放的,但有些不是,需要獲得許可或取用作者的工作才能使用。此外,其中也包含一些預處理資料,可用於學術實驗。連結和資料集描述。


Book

· 1. Book Crossing

    BookCrossing(BX)資料集由Cai-Nicolas花了的4周(2004年8月/ 9月)從Book-Crossing社群中爬取得到的。

· 下載連結:http://www2.informatik.uni-freiburg.de/~cziegler/BX/


電子商務

· 2. Amazon

    該資料集包括自1996年5月至2014年7月,來自亞馬遜上的1.428億產品的評論和metadata。

· 下載連結:http://jmcauley.ucsd.edu/data/amazon/


· 3. Retailrocket推薦系統資料集

    該資料集由三個檔案組成:一個行為資料集(events.csv),一個屬性資料集(item_properties.сsv)和一個類目樹資料集(category_tree.сsv)。該資料來自現實世界的電子商務網站。

· 下載連結:https://www.kaggle.com/retailrocket/ecommerce-dataset


音樂

· 4. Amazon Music

    該數字音樂資料集包含來自亞馬遜的評論和元資料

· 下載連結:http://jmcauley.ucsd.edu/data/amazon/


· 5. Yahoo Music

    該資料集是一個快照,收集了音樂社群對各種音樂藝術家的偏好。

· 下載連結:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


· 6. LastFM(Implicit)

    該資料集收集了Last.fm網站上2千名使用者的社交網路、tagging和music artist listening資訊。

· 下載連結:https://grouplens.org/datasets/hetrec-2011/


· 7. Milion Song Dataset

    Million Song資料集是一個免費的資料集,提供了一百萬條當代流行音樂曲目相關的的audio features和metadata。

· 下載連結:https://labrosa.ee.columbia.edu/millionsong/


電影

· 8. MovieLens

    GroupLens Research已經從他們的電影網站收集整理的rating資料集。

· 下載連結:https://grouplens.org/datasets/movielens/


· 9. Yahoo Movies

    該資料集包含從兩個不同來源收集的歌曲的rating資料集。第一個來源是使用者在與Yahoo上使用音樂服務是產生的rating資料。

· 下載連結:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


· 10. CiaoDVD

    CiaoDVD是2013年12月從dvd.ciao.co.uk網站上抓取的DVD類別資料集。

· 下載連結:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


·11. FilmTrust

    FilmTrust是2011年6月從整個FilmTrust網站上抓取的一個小型資料集。

· 下載連結:https://www.librec.net/datasets.html


· 12. Netflix

    這是Netflix獎競賽中使用的官方資料集。

· 下載連結:http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a


遊戲

· 13. Steam Video Games

    這是一個使用者行資料集,包含:user-id,game-title,behavior-name,value。包括“purchase”和“play”資料集。購買了,puchase的值為1,而“play”的值表示使用者播放音樂的時長。

· 下載連結:https://www.kaggle.com/tamber/steam-video-games/data


Jokes

· 14. Jester

    該笑話資料集包含來自73,496個使用者,關於100個笑話的410萬連續rating資料(-10.00到+10.00)

· 下載連結:http://www.ieor.berkeley.edu/~goldberg/jester-data/


餐飲

·15. Chicago Entree

    該資料集包含使用者與Entree Chicago餐廳推薦系統互動的記錄資料。

· 下載連結:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data


動漫

·16. 動漫推薦資料庫

    該資料集包含來自12,294個動漫的73,516個使用者的使用者偏好資料。每個使用者都可以將動畫新增到已完成的串列中併為其評分,該資料集把這些評級整理起來。

· 下載連結:https://www.kaggle.com/CooperUnion/anime-recommendations-database


其他資料集

· GroupLens資料集

· 下載連結:https://grouplens.org/datasets/


· LibRec資料集

· 下載連結:https://www.librec.net/datasets.html


· Yahoo Research資料集

· 下載連結:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r


· 斯坦福大型網路資料集彙編

· 下載連結:https://snap.stanford.edu/data/

往期精彩內容推薦

每週論文分享-0723

基於深度學習的文字分類6大演演算法-原理、結構、論文、原始碼打包分享

一文告訴你Adam、AdamW、Amsgrad區別和聯絡,助你實現Super-convergence的終極標的

COLING 2018-最新論文最全分類-整理分享

谷歌、微軟、Facebook等2018最新面試題分享

純乾貨11 強化學習(Reinforcement Learning)教材推薦

最佳化策略5 Label Smoothing Regularization_LSR原理分析

純乾貨-8 21套深度學習相關的影片教程分享

模型彙總17 基於Depthwise Separable Convolutions的Seq2Seq模型_SliceNet原理解析

模型彙總16 各類Seq2Seq模型對比及《Attention Is All You Need》中技術詳解

模型彙總15 領域適應性Domain Adaptation、One-shot/zero-shot Learning概述

掃描下方二維碼可以訂閱哦!

DeepLearning_NLP

深度學習與NLP

       商務合作請聯絡微訊號:lqfarmerlq

贊(0)

分享創造快樂