歡迎光臨
每天分享高質量文章

500款各領域機器學習資料集,總有一個是你要找的

目錄:

金融

交通

商業

推薦系統

醫療健康

影象資料

影片資料

音訊資料

自然語言處理

社會資料

科研和競賽資料

金融

美國勞工部統計局官方釋出資料:http://dataju.cn/Dataju/web/datasetInstanceDetail/139

滬深股票除權除息、配股增發全量資料,截止 2016.12.31 http://dataju.cn/Dataju/web/datasetInstanceDetail/344

上證主機板日線資料,截止 2017.05.05,原始價、前復權價、後復權價,1260支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/340

深證主機板日線資料,截止 2017.05.05,原始價、前復權價、後復權價,466支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/341

深證中小板日線資料,截止 2017.05.05,原始價、前復權價、後復權價,852支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/342

深證創業板日線資料,截止 2017.05.05,原始價、前復權價、後復權價,636支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/343

上證A股日線資料,1999.12.09 至 2016.06.08,前復權,1095支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/37

深證A股日線資料,1999.12.09 至 2016.06.08,前復權,1766支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/38

深證創業板日線資料,1999.12.09 至 2016.06.08,前復權,510支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/39

MT4平臺外匯交易歷史資料http://dataju.cn/Dataju/web/datasetInstanceDetail/43

Forex平臺外匯交易歷史資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/67

幾組外匯交易逐筆(Ticks)資料http://dataju.cn/Dataju/web/datasetInstanceDetail/44

美國股票新聞資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/220

美國醫療保險市場資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/225

美國金融客戶投訴資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/229

Lending Club 網貸違約資料【Kaggle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/206

信用卡欺詐資料【Kaggle 資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/206

美國股票資料XBRL【Kaggle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/214

紐約股票交易所資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/214

貸款違約預測競賽資料【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/249

Zillow 網站房地產價值預測競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/249

Sberbank 俄羅斯房地產價值預測競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/266

Homesite 保險定價競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/336

Winton 股票回報率預測競賽資料【Kaggle競賽】

http://dataju.cn/Dataju/web/datasetInstanceDetail/347‍match

交通

2013年紐約出租車行駛資料http://dataju.cn/Dataju/web/datasetInstanceDetail/348

2013年芝加哥出租車行駛資料http://dataju.cn/Dataju/web/datasetInstanceDetail/355

Udacity自動駕駛資料http://dataju.cn/Dataju/web/datasetInstanceDetail/356

紐約 Uber 接客資料 【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/76

英國車禍資料(2005-2015)【Kaagle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/323

芝加哥汽車超速資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/86

KITTI 自動駕駛任務資料【資料太大僅有部分】 http://dataju.cn/Dataju/web/datasetInstanceDetail/210

Cityscapes 場景標註資料【資料太大僅有部分】 http://dataju.cn/Dataju/web/datasetInstanceDetail/210

德國交通標誌識別資料http://dataju.cn/Dataju/web/datasetInstanceDetail/232

交通訊號識別資料http://dataju.cn/Dataju/web/datasetInstanceDetail/228

芝加哥Divvy共享腳踏車騎行資料(2013年至今) http://dataju.cn/Dataju/web/datasetInstanceDetail/228

美國查塔努加市共享單車騎行資料http://dataju.cn/Dataju/web/datasetInstanceDetail/270

Capital 共享單車騎行資料https://zhuanlan.zhihu.com/

Bay Area 共享單車騎行資料http://dataju.cn/Dataju/web/datasetInstanceDetail/338

Nice Ride 共享單車騎行資料http://dataju.cn/Dataju/web/datasetInstanceDetail/339

花旗銀行共享單車騎行資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/325

運用衛星資料跟蹤亞馬遜熱帶雨林中的人類軌跡競賽【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/358

紐約出租車管理委員會官方的乘車資料(2009年-2016年) 

http://dataju.cn/Dataju/web/datasetInstanceDetail/359

商業

Airbnb 開放的民宿資訊和住客評論資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/360

Amazon 食品評論資料http://dataju.cn/Dataju/web/datasetInstanceDetail/361

【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/324

Amazon 無鎖手機評論資料http://dataju.cn/Dataju/web/datasetInstanceDetail/349

【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/364

美國影片遊戲銷售和評價資料http://dataju.cn/Dataju/web/datasetInstanceDetail/309

【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/207

Kaggle 各項競賽情況資料【Kaggle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/207

Bosch 生產流水線降低次品率競賽資料【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/208

預測公寓租金競賽資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/208

廣告點選預測競賽資料http://dataju.cn/Dataju/web/datasetInstanceDetail/230

餐廳營業收入預測建模競賽http://dataju.cn/Dataju/web/datasetInstanceDetail/230

銀行產品推薦競賽資料http://dataju.cn/Dataju/web/datasetInstanceDetail/213

網站使用者推薦點選預測競賽資料http://dataju.cn/Dataju/web/datasetInstanceDetail/319

線上廣告實時競價資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/337

購物車商品關聯競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/335

Airbnb 新使用者的民宿預定預測競賽資料【Kaggle競賽】 

http://dataju.cn/Dataju/web/datasetInstanceDetail/333

推薦系統

Netflix 電影評價資料http://dataju.cn/Dataju/web/datasetInstanceDetail/330

MovieLens 20m 電影推薦資料集 http://dataju.cn/Dataju/web/datasetInstanceDetail/329

WikiLenshttp://dataju.cn/Dataju/web/datasetInstanceDetail/227

Jesterhttp://dataju.cn/Dataju/web/datasetInstanceDetail/350

HetRec2011http://dataju.cn/Dataju/web/datasetInstanceDetail/354

Book Crossinghttp://dataju.cn/Dataju/web/datasetInstanceDetail/32

Large Movie Reviewhttp://dataju.cn/Dataju/web/datasetInstanceDetail/116

Retailrocket 商品評論和推薦資料

http://dataju.cn/Dataju/web/datasetInstanceDetail/97

醫療健康

人識別物體時大腦核磁共振影像資料http://dataju.cn/Dataju/web/datasetInstanceDetail/99

人理解單詞時大腦核磁共振影像資料http://dataju.cn/Dataju/web/datasetInstanceDetail/101

心臟病心房影象及標註資料http://dataju.cn/Dataju/web/datasetInstanceDetail/100

細胞病理識別http://dataju.cn/Dataju/web/datasetInstanceDetail/98

FIRE 視網膜眼底病變影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/290

食物營養成分資料 【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/80

EGG 大腦電波形狀資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/79

某人基因序列資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/121

癌症CT影像資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/242

軟組織肉瘤CT影象資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/124

美國國家健康與服務部-國家癌症研究所發起的癌症資料倉庫介紹【僅有介紹】 http://dataju.cn/Dataju/web/datasetInstanceDetail/250

Data Science Bowl 2017 肺癌識別競賽資料【資料太大僅有介紹】 http://dataju.cn/Dataju/web/datasetInstanceDetail/258

TCGA-LUAD 肺癌CT影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/261

RIDER Lung CT 肺癌CT影像http://dataju.cn/Dataju/web/datasetInstanceDetail/275

TCGA-COAD癌症CT影像資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/284

TCIA-TCGA-OV 癌症CT影像資料http://dataju.cn/Dataju/web/datasetInstanceDetail/283

TCIA RIDER NEURO 癌症MRI影像資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/287

QIN Beast 乳腺癌MRI影像資料 

http://dataju.cn/Dataju/web/datasetInstanceDetail/291

影象資料/綜合影象

Visual Genome 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/311

Visual7w 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/315

COCO 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/316

SUFR 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/317

ILSVRC 2014 訓練資料(ImageNet的一部分) http://dataju.cn/Dataju/web/datasetInstanceDetail/369

PASCAL Visual Object Classes 2012 影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/85

PASCAL Visual Object Classes 2011 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/107

PASCAL Visual Object Classes 2010 影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/51

80 Million Tiny Image 影象資料【資料太大僅有介紹】 http://dataju.cn/Dataju/web/datasetInstanceDetail/240

ImageNet【資料太大僅有介紹】http://dataju.cn/Dataju/web/datasetInstanceDetail/55

Google Open Images【資料太大僅有介紹】 http://dataju.cn/Dataju/web/datasetInstanceDetail/40

場景影象

Street Scences 影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/45

Places2 場景影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/48

UCF Google Street View 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/138

SUN 場景影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/138

The Celebrity in Places 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/83

Web影象標簽

HARRISON 社交標簽影象 http://dataju.cn/Dataju/web/datasetInstanceDetail/183

NUS-WIDE 標簽影象http://dataju.cn/Dataju/web/datasetInstanceDetail/74

Visual Synset 標簽影象http://dataju.cn/Dataju/web/datasetInstanceDetail/112

Animals With Attributes 標簽影象http://dataju.cn/Dataju/web/datasetInstanceDetail/160

人形輪廓影象

MPII Human Shapehttp://dataju.cn/Dataju/web/datasetInstanceDetail/234

人體輪廓資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/173

Biwi Kinect Head Pose 頭部姿勢資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/52

上半身人像資料http://dataju.cn/Dataju/web/datasetInstanceDetail/52

INRIA Person 資料集 http://dataju.cn/Dataju/web/datasetInstanceDetail/235

視覺文字識別影象

Street View House Number 門牌號影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/236

MNIST 手寫數字識別影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/253

3D MNIST 數字識別影象資料【Kaggle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/129

MediaTeam Document 檔案影印和內容資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/129

Text Recognition 文字影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/110

NIST Handprinted Forms and Characters 手寫英文字元資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/49

NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/73

(SFRS) 影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/47

NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/23

(SFRS) II 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/203

特定一類事物影象

著名的貓影象標註資料http://dataju.cn/Dataju/web/datasetInstanceDetail/128

Caltech-UCSDhttp://dataju.cn/Dataju/web/datasetInstanceDetail/176

Birds200 鳥類影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/278

Stanford Car 汽車影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/294

Cars 汽車影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/295

MIT Cars 汽車影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/41

Stanford Cars 汽車影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/105

Food-101 美食影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/106

17_Category_Flowerhttp://dataju.cn/Dataju/web/datasetInstanceDetail/106

影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/254

102_Category_Flowerhttp://dataju.cn/Dataju/web/datasetInstanceDetail/255

影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/109

UCI Folio Leaf 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/114

Labeled Fisheshttp://dataju.cn/Dataju/web/datasetInstanceDetail/115

in the Wild 魚類影象http://dataju.cn/Dataju/web/datasetInstanceDetail/60

美國 Yelp 點評網站酒店照片http://dataju.cn/Dataju/web/datasetInstanceDetail/61

CMU-Oxfordhttp://dataju.cn/Dataju/web/datasetInstanceDetail/63

Sculpture 塑像雕像影象 http://dataju.cn/Dataju/web/datasetInstanceDetail/174

Oxford-IIIT Pet 寵物影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/256

Naturehttp://dataju.cn/Dataju/web/datasetInstanceDetail/301

Conservancy Fisheries Monitoring 過度捕撈監控影象資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/118

材質紋理影象

CURET 紋理材質影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/111

ETHZ Synthesizability 紋理影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/127

KTH-TIPS 紋理材質影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/172

Describable Textures 紋理影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/71

物體分類影象

COIL-20 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/62

COIL-100 影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/70

Caltech-101 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/54

Caltech-256 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/46

CIFAR-10 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/42

CIFAR-100 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/53

STL-10 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/72

LabelMe_12_50k http://dataju.cn/Dataju/web/datasetInstanceDetail/72

影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/69

NORB v1.0 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/117

NEC Toy Animal 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/237

iCubWorld 影象分類資料http://dataju.cn/Dataju/web/datasetInstanceDetail/238

Multi-class 影象分類資料http://dataju.cn/Dataju/web/datasetInstanceDetail/239

GRAZ 影象分類資料http://dataju.cn/Dataju/web/datasetInstanceDetail/108

人臉影象

IMDB-WIKI 500k+ 人臉影象、年齡性別資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/68

Labeled Faces in the Wild 人臉資料http://dataju.cn/Dataju/web/datasetInstanceDetail/50

Extended Yale Face Database B 人臉資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/131

Bao Face 人臉資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/87

DC-IGN 論文人臉資料http://dataju.cn/Dataju/web/datasetInstanceDetail/119

300 Face in Wild 影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/120

BioID Face 人臉資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/122

CMU Frontal Face Imageshttp://dataju.cn/Dataju/web/datasetInstanceDetail/123

FDDB_Face Detection Data Set and Benchmark http://dataju.cn/Dataju/web/datasetInstanceDetail/130

NIST Mugshot Identification Database http://dataju.cn/Dataju/web/datasetInstanceDetail/140

Faces in the Wild 人臉資料http://dataju.cn/Dataju/web/datasetInstanceDetail/170

CelebA 名人人臉影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/175

VGG Face 人臉影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/189

Caltech 10k Web Faces 人臉影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/125

姿勢動作影象

HMDB_a large human motion database http://dataju.cn/Dataju/web/datasetInstanceDetail/126

Human Actions and Scenes Dataset http://dataju.cn/Dataju/web/datasetInstanceDetail/177

Buffy Stickmen V3 人體輪廓識別影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/178

Human Pose Evaluator 人體輪廓識別影象資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/179

Buffy pose 人類姿勢影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/181

VGG Human Pose Estimation 姿勢影象標註資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/197

指紋識別影象

NIST FIGS 指紋識別資料http://dataju.cn/Dataju/web/datasetInstanceDetail/281

NIST Supplemental Fingerprint Card Data (SFCD) 指紋識別資料http://dataju.cn/Dataju/web/datasetInstanceDetail/280

NIST Plain and Rolled Images from Paired Fingerprint Cards http://dataju.cn/Dataju/web/datasetInstanceDetail/279

in 500 pixels per inch 指紋識別資料http://dataju.cn/Dataju/web/datasetInstanceDetail/77

NIST Plain and Rolled Images from Paired Fingerprint Cards http://dataju.cn/Dataju/web/datasetInstanceDetail/289

1000 pixels per inch 指紋識別資料http://dataju.cn/Dataju/web/datasetInstanceDetail/132

其他影象資料

Visual Question Answering V1.0 影象資料http://dataju.cn/Dataju/web/datasetInstanceDetail/84

Visual Question Answering V2.0 影象資料 

http://dataju.cn/Dataju/web/datasetInstanceDetail/241

影片資料/綜合影片

DAVIS_Densely Annotated Video Segmentation 資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/147

YouTube-8M 影片資料集【資料太大僅有介紹】http://dataju.cn/Dataju/web/datasetInstanceDetail/133

YouTube 網站影片備份【資料太大僅有介紹】 http://dataju.cn/Dataju/web/datasetInstanceDetail/134

人類動作影片

Microsoft Research Action 人類動作影片資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/144

UCF50 Action Recognition 動作識別資料http://dataju.cn/Dataju/web/datasetInstanceDetail/135

UCF101 Action Recognition 動作識別資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/136

UT-Interaction 人類動作影片資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/137

UCF iPhone 運動中感測器資料http://dataju.cn/Dataju/web/datasetInstanceDetail/148

UCF YouTube 人類動作影片資料http://dataju.cn/Dataju/web/datasetInstanceDetail/125

UCF Sport 人類動作影片資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/126

UCF-ARG 人類動作影片資料http://dataju.cn/Dataju/web/datasetInstanceDetail/141

HMDB 人類動作影片http://dataju.cn/Dataju/web/datasetInstanceDetail/157

HOLLYWOOD2 人類行為動作影片資料http://dataju.cn/Dataju/web/datasetInstanceDetail/146

Recognition of human actions 動作影片資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/244

Motion Capture 動作捕捉影片資料http://dataju.cn/Dataju/web/datasetInstanceDetail/245

SBU Kinect Interaction 肢體動作影片資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/246

標的檢測影片

UCSD Pedestrian 行人影片資料http://dataju.cn/Dataju/web/datasetInstanceDetail/247

Caltech Pedestrian 行人影片資料http://dataju.cn/Dataju/web/datasetInstanceDetail/248

ETH 行人影片資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/223

INRIA 行人影片資料http://dataju.cn/Dataju/web/datasetInstanceDetail/159

TudBrussels 行人影片資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/151

Daimler 行人影片資料http://dataju.cn/Dataju/web/datasetInstanceDetail/150

ALOV++ 物體追蹤影片資料http://dataju.cn/Dataju/web/datasetInstanceDetail/152

密集人群影片

Crowd Counting 高密度人群影象 http://dataju.cn/Dataju/web/datasetInstanceDetail/156

Crowd Segmentation 高密度人群影片資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/243

Tracking in High Density Crowds 高密度人群影片 http://dataju.cn/Dataju/web/datasetInstanceDetail/200

其他影片

Fire Detection 影片資料

http://dataju.cn/Dataju/web/datasetInstanceDetail/186

音訊資料/綜合音頻

Google Audioset 音訊資料【資料太大僅有介紹】 http://dataju.cn/Dataju/web/datasetInstanceDetail/164

語音識別

Sinhala TTS 英語語音識別http://dataju.cn/Dataju/web/datasetInstanceDetail/251

TIMIT 美式英語語音識別資料http://dataju.cn/Dataju/web/datasetInstanceDetail/252

LibriSpeech ASR corpus 語音資料http://dataju.cn/Dataju/web/datasetInstanceDetail/194

Room Impulse Response and Noise 語音資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/191

ALFFA 非洲語音資料http://dataju.cn/Dataju/web/datasetInstanceDetail/96

THUYG-20 維吾爾語語音資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/96

AMI Corpus 語音識別

http://dataju.cn/Dataju/web/datasetInstanceDetail/96

自然語言處理

RCV1http://dataju.cn/Dataju/web/datasetInstanceDetail/93

英語 http://dataju.cn/Dataju/web/datasetInstanceDetail/90

新聞資料http://dataju.cn/Dataju/web/datasetInstanceDetail/78

20news 英語新聞資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/78

First Quora Release Question Pairs 問答資料http://dataju.cn/Dataju/web/datasetInstanceDetail/94

JRC Nameshttp://dataju.cn/Dataju/web/datasetInstanceDetail/92

各國語言專有物體名稱http://dataju.cn/Dataju/web/datasetInstanceDetail/89

Multi-Domain Sentiment V2.0 http://dataju.cn/Dataju/web/datasetInstanceDetail/205

LETOR 資訊檢索資料http://dataju.cn/Dataju/web/datasetInstanceDetail/205

Yale Youtube Vedio Text http://dataju.cn/Dataju/web/datasetInstanceDetail/221

斯坦福問答資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/221

美國假新聞資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/212

NIPS會議文章資訊資料(1987-2016)【Kaggle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/268

2016年美國總統選舉辯論資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/269

WikiLinks 跨檔案指代語料http://dataju.cn/Dataju/web/datasetInstanceDetail/277

European Parliament Proceedings Parallel Corpus 機器翻譯資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/285

WikiText 英語語意詞庫資料http://dataju.cn/Dataju/web/datasetInstanceDetail/272

WMT 2011 News Crawl 機器翻譯資料http://dataju.cn/Dataju/web/datasetInstanceDetail/288

Stanford Sentiment Treebank 詞彙資料http://dataju.cn/Dataju/web/datasetInstanceDetail/334

英語語言模型單詞預測競賽資料 

http://dataju.cn/Dataju/web/datasetInstanceDetail/201

社會資料

希拉里郵件門洩露郵件http://dataju.cn/Dataju/web/datasetInstanceDetail/267

波士頓Airbnb 公開資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/209

世界各國經濟發展資料【Kaagle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/202

世界大學排名芝加哥犯罪資料(2001-2017)【Kaagle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/233

世界範圍顯著地震資料(1965-2016)【Kaagle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/231

美國嬰兒姓名資料【Kaagle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/222

全世界鯊魚襲擊人類資料【Kaagle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/219

1908年以來空難資料【Kaagle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/218

2016年美國總統大選資料【Kaagle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/217

2013年美國社群統計資料【Kaagle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/273

2014年美國社群統計資料【Kaagle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/274

2015年美國社群統計資料【Kaagle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/215

歐洲足球運動員賽事表現資料【Kaagle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/211

美國環境汙染資料【Kaagle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224

美國H1-B簽證申請資料Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/224

IMDB五千部電影資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/224

2015年航班延誤和取消資料【Kaggle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/226

兇殺案報告資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/216

人力資源分析資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/259

美國費城犯罪資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/260

安然公司郵件資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/262

歷史棒球資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/263

美聯航 Twitter 使用者評論資料【Kaggle資料】 http://dataju.cn/Dataju/web/datasetInstanceDetail/264

波士頓 Airbnb 公開資料【Kaggle資料】http://dataju.cn/Dataju/web/datasetInstanceDetail/265

芝加哥市2001年以來犯罪記錄資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/267

美國查塔努加市犯罪記錄資料(2003年至今) http://dataju.cn/Dataju/web/datasetInstanceDetail/353

芝加哥街邊咖啡廳季節中的人行道咖啡廳許可資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/358

芝加哥餐館衛生檢查結果資料http://dataju.cn/Dataju/web/datasetInstanceDetail/351

幾個人類運動位置路線GPS資料集(騎行、跑步等) 

http://dataju.cn/Dataju/web/datasetInstanceDetail/352

科研和競賽資料

NIPS 2003 屬性選擇競賽資料http://dataju.cn/Dataju/web/datasetInstanceDetail/370

臺灣大學林智仁教授處理為 LibSVM 格式的分類建模資料 http://dataju.cn/Dataju/web/datasetInstanceDetail/296

Large-scale 分類建模資料http://dataju.cn/Dataju/web/datasetInstanceDetail/297

幾個UCI 中 large-scale 分類建模資料http://dataju.cn/Dataju/web/datasetInstanceDetail/298

Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299

Data Repository 社交網路資料http://dataju.cn/Dataju/web/datasetInstanceDetail/300

貓和狗分類識別競賽資料【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/318

DSTL 衛星影象識別競賽資料【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/328

根據手機應用軟體使用行為預測使用者性別年齡競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/332

人臉關鍵點標定競賽資料【Kaggle競賽】 http://dataju.cn/Dataju/web/datasetInstanceDetail/331

Kaggle競賽資料合輯(部分競賽資料)

http://dataju.cn/Dataju/web/datasetInstanceDetail/368

Kaggle

書籍推薦資料集(goodreads/上萬圖書/百萬評價)【Kaggle】

https://www.kaggle.com/zygmunt/goodbooks-10k

帶有預期點數和獲勝機率的NFL比賽詳情資料集(2009-2016)【Kaggle】

https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016

HackerNews資料集(2006年以來約1/4文章) 【Kaggle】

https://www.kaggle.com/hacker-news/hacker-news-corpus

酒店評價資料集【Kaggle】

https://www.kaggle.com/datafiniti/hotel-reviews

1950年以來NBA球員狀態&表現資料集【Kaggle】

https://www.kaggle.com/drgilermo/nba-players-stats

開普勒太空望遠鏡深空星球光強時序資料集【Kaggle】

https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data

巴基斯坦無人機襲擊資料集(2004-2016)【Kaggle】

https://www.kaggle.com/zusmani/pakistandroneattacks

墨爾本房屋市場資料集【Kaggle】

https://www.kaggle.com/anthonypino/melbourne-housing-market

1789-2016歷任美國總統簽署行政命令資料集【Kaggle】

https://www.kaggle.com/nationalarchives/executive-orders

來自Stack Overflow平臺的Python語言問答資料集【Kaggle】

https://www.kaggle.com/stackoverflow/pythonquestions

來自Stack Overflow品臺的R語言問答資料集【Kaggle】

https://www.kaggle.com/stackoverflow/rquestions

每日海冰範圍資料集【Kaggle】

https://www.kaggle.com/nsidcorg/daily-sea-ice-extent-data

NIPS(1987-2016)論文資料集【Kaggle】

https://www.kaggle.com/benhamner/nips-papers

大學公開資料集

(Stanford)69G大規模無人機(校園)影象資料集【Stanford】

http://cvgl.stanford.edu/projects/uav_data/

人臉素描資料集【CUHK】

http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

自然語言推理(文字蘊含標記)資料集【NYU】

https://www.nyu.edu/projects/bowman/multinli/

Berkeley影象分割資料集BSDS500【Berkeley】

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html

寵物圖片(分割)資料集【Oxford】

http://www.robots.ox.ac.uk/~vgg/data/pets/

釋出ADE20K場景感知/解析/分割/多標的識別資料集【MIT】

https://groups.csail.mit.edu/vision/datasets/ADE20K/

多模態二元行為資料集【GaTech】

http://www.cbi.gatech.edu/mmdb/

計算機視覺/影象/影片資料集

Fashion-MNIST風格服飾影象資料集【肖涵】

https://github.com/zalandoresearch/fashion-mnist

大型(50萬)LOGO標誌資料集

https://data.vision.ee.ethz.ch/cvl/lld/

4D掃描(60fps移動非剛性物體3D掃描)資料集【D-FAUST】

http://dfaust.is.tue.mpg.de

基於MNIST的視覺計數合成資料集Counting MNIST

http://fomoro.com/tools/counting-mnist/

YouTube MV影片資料集【Keunwoo Choi】

https://github.com/keunwoochoi/YouTube-music-video-5M

計算機視覺合成資料集/工具大串列【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

動物屬性標記資料集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】

http://cvml.ist.ac.at/AwA2/

日本漫畫資料集Manga109

http://dl.acm.org/citation.cfm?doid=3011549.3011551

俯拍舞蹈影片資料集

http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/

Pixiv(著色)圖片資料集【Jerry Li】

https://github.com/jerryli27/pixiv_dataset

e-VDS影片資料集

https://engineering.purdue.edu/elab/eVDS/#download

Quick, Draw!簡筆畫塗鴉資料集

https://github.com/googlecreativelab/quickdraw-dataset

簡筆畫塗鴉資料集【hardmaru】

https://github.com/hardmaru/sketch-rnn-datasets

服飾人像生成模型(&Chictopia10K;[HumanParsing]時尚人像解析資料集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】

http://files.is.tue.mpg.de/classner/gp/

COCO畫素級標註資料集

https://github.com/nightrome/cocostuff

大規模街道級圖片(分割)資料集【Peter Kontschieder】

http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

大規模日語圖片描述資料集

https://github.com/STAIR-Lab-CIT/STAIR-captions

Cityscapes街景語意分割資料集(50城30類5k細標20k粗標圖片及標記影片)

https://github.com/mcordts/cityscapesScripts

(街頭)時尚服飾資料集(2000+標註圖片)

https://github.com/bearpaw/clothing-co-parsing 

PyTorch實現的VOC2012資料集Pixel-wise標的分割【BodoKaiser】

https://github.com/bodokaiser/piwise

Twenty Billion Neurons物件複雜運動與互動影片資料集【Nikita Johnson】

https://www.re-work.co/blog/the-something-something-video-dataset 

文字/評價/問答/自然語言資料集

(20萬)英文笑話資料集【TaivoPungas】

https://github.com/taivop/joke-dataset

機器學習保險行業問答開放資料集【HainWang】

https://github.com/shuzi/insuranceQA

保險行業問答(QA)資料集【Minwei Feng】

https://github.com/shuzi/insuranceQA

Stanford NLP釋出新的多輪、跨域、任務導向對話資料集【Mihail Eric】

https://github.com/keunwoochoi/YouTube-music-video-5M

物體/名詞語意關係標記資料集【David S. Batista】

https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets

NLVR:自然語言基礎資料集(物件分組、數量、比較及空間關係推理)

http://lic.nlp.cornell.edu/nlvr/

2.8萬文章/10萬問題大規模(英語考試)閱讀理解資料集

https://github.com/qizhex/RACE_AR_baselines

錯誤拼寫資料集

http://www.dcs.bbk.ac.uk/~ROGER/corpora.html

文字簡化資料集

http://www.cs.pomona.edu/~dkauchak/simplification/

英語詞/句/語意框架框架標註資料集FrameNet

https://framenet.icsi.berkeley.edu/fndrupal/

(又一個)自然語言處理(NLP)資料集串列【Nicolas Iderhoff】

https://github.com/niderhoff/nlp-datasets 

跨語種/多樣式/多粒度文字相似性檢測資料集

https://github.com/FerreroJeremy/Cross-Language-Dataset

Quora資料集:400000行潛在重覆問題

http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

文字分類資料集

http://disi.unitn.it/moschitti/corpora.htm

Frames:Maluuba對話資料集

https://datasets.maluuba.com/Frames/dl

跨域(Amazon商品評論)情感資料集

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

語意網機器學習系統評價/基準資料集集合

http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml

其它資料集

資料科學/機器學習資料集彙總

https://elitedatascience.com/datasets

CORe50:連續標的識別資料集【VincenzoLomonaco&DavideMaltoni;】

https://vlomonaco.github.io/core50/

(Matlab)資料集統計分佈自動發現【Isabel Valera】

http://proceedings.mlr.press/v70/valera17a.html

(建築物)損害評估資料集【tsunami】

https://github.com/faiton713/ABCDdataset

IndieWeb社交圖譜資料集【IndieWeb】

http://www.indiemap.org

DeepMind開源環境/資料集/程式碼集合【DeepMind】

https://deepmind.com/research/open-source/

鳥叫聲資料集【xeno-canto】

http://www.xeno-canto.org

Wolfram資料集倉庫

https://datarepository.wolframcloud.com

大型音樂分析資料集FMA

https://github.com/mdeff/fma

(300萬)Instacart線上雜貨購物資料集【Jeremy Stanley】

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

用於欺詐檢測的合成財務資料集【TESTIMON】

https://www.kaggle.com/ntnu-testimon/paysim1

NSynth:大規模高質量音符標記音訊資料集

https://magenta.tensorflow.org/datasets/nsynth

LIBSVM格式分類/回歸/多標簽/字串資料集

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html

膝上型電腦用logistic回歸擬合100G資料集【DmitriySelivanov】

http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/

StackExchange近似/重覆問題資料集

http://nlp.cis.unimelb.edu.au/resources/cqadupstack/

2010-2017最全KDD CUP賽題回顧及資料集

http://suo.im/2kRoQ1

食譜資料集:帶有評級、營養及類別資訊的超過2萬種食譜【HugoDarwood】

https://www.kaggle.com/hugodarwood/epirecipes

奧斯卡資料集【Academy of Motion Picture Arts and Sciences】

https://www.kaggle.com/theacademy/academy-awards

計算醫療庫:(TensorFlow)大型醫療資料集分析與機器學習建模【AkshayBhat】

https://github.com/AKSHAYUBHAT/ComputationalHealthcare

聚類資料集

https://cs.joensuu.fi/sipu/datasets/

官方開放氣候資料集

https://pan.baidu.com/s/1i52Xarb

全球恐怖襲擊事件資料集【START Consortium】

https://www.kaggle.com/START-UMD/gtd

七個機器學習時序資料集

https://machinelearningmastery.com/time-series-datasets-for-machine-learning/

大型眾包關係資料庫自然語言查詢語意解析資料集(8萬+查詢樣本)

http://t.cn/RNMr09n

賽馬賠率資料集

http://t.cn/RNf0tXN

新的YELP資料集:包含470萬評論和15.6萬商家

http://t.cn/RNG6JYi

JMIR資料集專刊《JMIR Data》

http://t.cn/RCIhmvS

用於評價監督機器學習演演算法的基準資料集

https:// github.com/EpistasisLab/penn-ml-benchmarks

人口普查收入資料集分類

https:// github.com/dformoso/sklearn-classification

日文木版印刷文字識別資料集

http://t.cn/RCZPfYB

多模態二元行為資料集

http://t.cn/RCzFn1g

(TensorFlow)AudioSet音訊事件資料集分類模型

GitHub: tensorflow/models/tree/master/audioset

Facebook星際爭霸遊戲資料集

(TorchCraft可讀/365GB/6萬多場次/15億幀畫面/近5億使用者操作)

http://t.cn/R9j8AUM

機器學習論文/資料集/工具集錦(日文)

http://t.cn/RKV7x2A

機器學習公司的十大資料蒐集策略

http://t.cn/R54rtvd

NLP資料集載入工具集

http://t.cn/RaYwYXl

日語相似詞資料集

http://t.cn/RaVFV35

大規模人本完形填空(多選閱讀理解)資料集

http://t.cn/Rac2Pey

高質量免費資料集串列

http://t.cn/R6B1aqa

《資料之美》自然語言資料集/程式碼

http://t.cn/hBOTM4

微軟資料集MS MARCO,閱讀理解領域的「ImageNet」

http://t.cn/RIMqGBK

AI2科學問答資料集(多選)

http://t.cn/RI5liwJ

常用影象資料集大全

(分類,跟蹤,分割,檢測等)


1. 搜狗實驗室資料集:

http://www.sogou.com/labs/dl/p.html

網際網路圖片庫來自sogou圖片搜尋所索引的部分資料。其中收集了包括人物、動物、建築、機械、風景、運動等類別,總數高達2,836,535張圖片。對於每張圖片,資料集中給出了圖片的原圖、縮圖、所在網頁以及所在網頁中的相關文字。200多G

2. http://www.imageclef.org/

IMAGECLEF致力於點陣圖片相關領域提供一個基準(檢索、分類、標註等等) Cross Language Evaluation Forum (CLEF) 。從2003年開始每年舉行一次比賽.

http://staff.science.uva.nl/~xirong/index.php?n=Main.Dataset

來源:人工智慧愛好者社群

精彩活動

福利 · 閱讀 | 免費申請讀大資料新書 第23期

推薦閱讀

2017年資料視覺化的七大趨勢! 

全球100款大資料工具彙總(前50款) 

論大資料的十大侷限

大資料時代的10個重大變革

大資料七大趨勢 第一個趨勢是物聯網


Q: 你還知道哪些資料集?

歡迎留言與大家分享

請把這篇文章分享給你的朋友

轉載 / 投稿請聯絡:hzzy@hzbook.com

更多精彩文章,請在公眾號後臺點選“歷史文章”檢視

贊(0)

分享創造快樂