歡迎光臨
每天分享高質量文章

資源 | 25個深度學習開源資料集,have fun !

作者:PRANAV DAR 翻譯:Nicola 校對:馮羽

本文共4000字,建議閱讀8分鐘。
本文介紹了圖像處理,自然語言處理,以及音頻/語音處理三類25個開源資料集。


簡介


深度學習(或生活中的大部分領域)的關鍵是演練。演練各種問題-從圖像處理到語音識別。每個問題都有其獨特的細微差別和方法。


但是,哪裡可以獲得這些資料?現今你看到的很多研究論文都使用通常不向公眾開放的專有資料集。而這成為瞭如果你學習並應用你新掌握的技能的阻礙。


如果你也遇到此問題,我們有解決方案提供給你。我們挑選了一系列公開可用的資料集供各位詳細閱讀。


在本文中,我們列出了一系列高質量的資料集,每個深度學習愛好者都可以應用和改進他們的技能。使用這些資料集將使你成為一名更好的資料科學家,同時你所學到的知識將對你的職業生涯產生無價的幫助­。我們還收錄了具有最新技術(SOTA)結果的論文供你瀏覽並改進你的模型。


如何使用這些資料集


 首先要做的事-這些資料集的容量相當大!所以請確保你的網絡是高速的、不限流量或有很多流量地下載資料。


有很多種可以使用這些資料集的方式。你可以使用它們來應用各種深度學習技巧。也可以使用它們來磨練你的技能,瞭解如何識別和構建每個問題,思考獨特的使用案例並展示給所有人你的發現,讓大家都可以看到!


這些資料集分為三類-圖像處理,自然語言處理,以及音頻/語音處理。


讓我們開始更深入的瞭解!


圖像處理


  • MNIST


MNIST是最受歡迎的深度學習資料集之一。這是一個手寫數字資料集,包含一組60,000個示例的訓練集和一組10,000個示例的測試集。這是一個對於在實際資料中嘗試學習技術和深度識別樣式的很好的資料庫,同時嘗試學習如何在資料預處理中花費最少的時間和精力。


大小:〜50 MB

記錄數量:分為10個類別的70,000個圖片

SOTA:Dynamic Routing Between Capsules


  • MS-COCO



COCO是一個規模大且豐富的物體檢測,分割和字幕資料集。它有幾個特點:


  • 物體分割

  • 文中識別

  • 超像素物質分割

  • 330K圖像(> 200K標記) 

  • 150萬個物體實體

  • 80個物體類別

  • 91個物質類別

  • 每張圖片5個字幕

  • 250,000有關鍵點的人


大小:〜25 GB(壓縮)

記錄數量:330K圖像,80個物體類別,每幅圖像5個字幕,250,000個有關鍵點的人

SOTA:Mask R-CNN


  • ImageNet



ImageNet是依據WordNet層次結構組織的圖像資料集。WordNet包含大約100,000個短語,ImageNet提供了平均大約1000個圖像來說明每個短語。


大小:〜150GB

記錄數量:圖像總數:〜1,500,000;每個都有多個邊界框和相應的類標簽

SOTA:Aggregated Residual Transformations for Deep Neural Networks


  • Open Images Dataset



Open Images是一個包含近900萬個圖像URL的資料集。這些圖像已經用數千個類別的圖像級標簽邊框進行了註釋。該資料集包含9,011,219張圖像的訓練集,41,260張圖像的驗證集以及125,436張圖像的測試集。


大小:500 GB(壓縮)

記錄數量:9,011,219張超過5k標簽的圖像

SOTA:Resnet 101圖像分類模型(在V2資料上訓練):Model checkpoint, Checkpoint readme, Inference code.


  • VisualQA



VQA是一個包含有關圖像的開放式問題的資料集。這些問題需要理解是視覺和語言。這個資料集有一些有趣的特點:


  • 265,016張圖片(COCO和抽象場景)

  • 每張圖片至少有3個問題(平均5.4個問題)

  • 每個問題10個基於事實答案

  • 每個問題3個似乎合理(但看起來不正確)的答案

  • 自動評估指標


大小:25 GB(壓縮)

記錄數量:265,016張圖片,每張圖片至少3個問題,每個問題10個基於事實答案

SOTA:Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge


  • The Street View House Numbers (SVHN)



這是用於開發物體檢測演算法的真實世界圖像資料集。這些只需要最少的資料預處理。它與本串列中提到的MNIST資料集類似,但擁有更多標簽資料(超過600,000個圖像)。這些資料是從谷歌街景中查看的房屋號碼中收集的。


大小:2.5 GB 

記錄數量:10個課程中的6,30,420張圖片

SOTA:Distributional Smoothing With Virtual Adversarial Training


  • CIFAR-10



 這是另一個圖像分類的資料集。它包含了10個類別的60,000個圖像(每個類在上圖中表示為一行)。總共有50,000個訓練圖像和10,000個測試圖像。資料集分為6個部分- 5個培訓批次和1個測試批次。每批有10,000個圖像。


大小:170 MB 

記錄數量:10個類別的60,000張圖片

SOTA:ShakeDrop regularization


  • Fashion-MNIST




Fashion-MNIST包含60,000個訓練圖像和10,000個測試圖像。它是一個類似MNIST的時尚產品資料庫。開發人員認為MNIST已被過度使用,因此他們將其作為MNIST的直接替代品。每張圖片都以灰度顯示,並與10個類別的標簽相關聯。


大小:30 MB 

記錄數量:10個類別的70,000張圖片

SOTA:Random Erasing Data Augmentation


自然語言處理


  • IMDB Reviews


這是一個電影愛好者的夢寐以求的資料集。它意味著二元情感分類,並具有比此領域以前的任何資料集更多的資料。除了訓練和測試評估示例之外,還有更多未標記的資料可供使用。包括文本和預處理的詞袋格式。


大小:80 MB

記錄數量:25,000個高度差異化的電影評論用於訓練,25,000個測試

SOTA:Learning Structured Text Representations


  • Twenty Newsgroups


顧名思義,該資料集包含有關新聞組的信息。為了選擇這個資料集,從20個不同的新聞組中挑選了1000篇新聞文章。這些文章具有一定特征,如主題行,簽名和取用。


大小:20 MB

記錄數量:來自20個新聞組的20,000條訊息

DOTA:Very Deep Convolutional Networks for Text Classification


  • Sentiment140


Sentiment140是一個可用於情感分析的資料集。一個流行的資料集,非常適合開始你的NLP旅程。情緒已經從資料中預先移除。最終的資料集具有以下6個特征:


  • 推文的極性

  • 推文的ID

  • 推文的日期

  • 問題

  • 推文的用戶名

  • 推文的文本


大小:80 MB(壓縮)

記錄數量:160,000條推文

SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets


  • WordNet


在上面的ImageNet資料集中提到,WordNet是一個很大的英文同義詞集。 同義詞集是每個都描述了不同的概念的同義詞組。WordNet的結構使其成為NLP非常有用的工具。


大小:10 MB

記錄數量:117,000個同義詞集通過少量“概念關係”與其他同義詞集相關聯。

SOTA:Wordnets: State of the Art and Perspectives


  • Yelp Reviews


這是Yelp為了學習目的而發佈的一個開源資料集。它包含了由數百萬用戶評論,商業屬性和來自多個大都市地區的超過20萬張照片。這是一個非常常用的全球NLP挑戰資料集。


大小:2.66 GB JSON,2.9 GB SQL和7.5 GB照片(全部壓縮)

記錄數量:5,200,000條評論,174,000條商業屬性,20萬張圖片和11個大都市區

SOTA:Attentive Convolution


  • The Wikipedia Corpus

這個資料集是維基百科全文的集合。它包含來自400多萬篇文章的將近19億字。使得這個成為強大的NLP資料集的是你可以通過單詞,短語或段落本身的一部分進行搜索。


大小:20 MB

記錄數量:4,400,000篇文章,19億字

SOTA:Breaking The Softmax Bottelneck: A High-Rank RNN language Model


  • The Blog Authorship Corpus


這個資料集包含了從blogger.com收集的數千名博主的博客帖子。每個博客都作為一個單獨的檔案提供。每個博客至少包含200個常用英語單詞。


大小:300 MB

記錄數量:681,288個帖子,超過1.4億字

SOTA:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution


  • Machine Translation of Various Languages


此資料集包含四種歐洲語言的訓練資料。這裡的任務是改進當前的翻譯方法。您可以參加以下任何語言組合:


  • 英語-漢語和漢語-英語

  • 英語-捷克語和捷克語-英語

  • 英語-愛沙尼亞語和愛沙尼亞語-英語

  • 英語-芬蘭語和芬蘭語-英語

  • 英語-德語和德語-英語

  • 英語-哈薩克語和哈薩克語-英語

  • 英文-俄文和俄文-英文

  • 英語-土耳其語和土耳其語-英語


大小:〜15 GB

記錄數量:約30,000,000個句子及其翻譯

SOTA:Attention Is All You Need


音頻/語音處理


  • Free Spoken Digit Dataset

此串列中的另一個被MNIST啟發而創建的資料集!這是為瞭解決識別音頻樣本中的口頭數字而創建。這是一個開源資料集,所以希望隨著人們繼續貢獻更多樣本幫助它不斷成長。目前,它包含以下特點:


  • 3個說話者

  • 1500個錄音(每個數字每個說話者讀50個)

  • 英語發音


大小:10 MB

記錄數量:1500個音頻樣本

SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures


  • Free Music Archive (FMA)


FMA是一個音樂分析的資料集。資料集包括了完整長度和HQ音頻,預先計算的特征,以及音軌和用戶級元資料。它是一個用於評估MIR中的一些任務的開源資料集。下麵是資料集的csv檔案串列以及它們包含的內容:


  • tracks.csv:每首曲目元資料,如ID,標題,藝術家,流派,標簽和播放次數,共106,574首曲目

  • genres.csv:所有163種風格的ID與他們的名字和起源(用於推斷流派層次和頂級流派)。

  • features.csv:用 librosa提取的常用特征。

  • echonest.csv:由 Echonest(現在的Spotify)提供的為13,129首音軌的子集的音頻功能。


大小:〜1000 GB

記錄數量:約100,000軌道

SOTA:Learning to Recognize Musical Genre from Audio


  • Ballroom

該資料集包含舞池跳舞音頻檔案。以真實音頻格式提供了許多舞蹈風格的一些特征摘錄。以下是資料集的一些特點:


  • 實體總數:698

  • 持續時間:約30秒

  • 總持續時間:約20940秒


大小:14GB(壓縮)

記錄數量:約700個音頻樣本

SOTA:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles


  • Million Song Dataset



Million Song Dataset是免費的一百萬首當代流行音樂曲目的音頻特征和元資料集合。其目的是:


  • 鼓勵對擴大到商業規模的演算法進行研究

  • 為評估研究提供參考資料集

  • 作為使用API創建大型資料集的捷徑(例如The Echo Nest)

  • 幫助新研究人員在MIR領域開始工作


資料集的核心是一百萬首歌曲的特征分析和元資料。這個資料集不包含任何音頻,只是派生的功能。示例音頻可以通過使用哥倫比亞大學提供的code從7digital等服務中獲取。


大小:280 GB

記錄數量:PS – 它的一百萬首歌曲!

SOTA:Preliminary Study on a Recommender System for the Million Songs Dataset Challenge


  • LibriSpeech


該資料集是大約1000小時的英語演講的大型語料庫。這些資料來自LibriVox專案的有聲讀物。它們已被分割並適當對齊。如果您正在尋找一個起點,請查看在kaldi-asr.org和語言模型上進行了訓練了的已準備好的聲學模型,這些模型適合在http://www.openslr.org/11/進行評測。


大小:〜60 GB

記錄數量:1000小時的演講

SOTA:Letter-Based Speech Recognition with Gated ConvNets


  • VoxCeleb


VoxCeleb是一個大規模演講者識別資料集。它包含了來自YouTube視頻的約1,251位知名人士的約10萬個話語。資料大部分是性別平衡的(男性占55%)。這些名人橫跨不同的口音,職業和年齡。開發和測試集之間沒有重疊。對於獨立和識別哪個超級巨星的音頻來說,這是一個有趣的使用案例。


大小:150 MB

記錄數量:1,251位名人的100,000條話語

SOTA:VoxCeleb: a large-scale speaker identification dataset

分析Vidhya實踐問題:為了您的練習,我們還提供實際生活問題和資料集讓你可以實際演練。在本節中,我們列舉了在我們DataHack平臺上的深度學習實踐問題。


  • Twitter Sentiment Analysis

仇恨型演講以種族主義和性別歧視為形式的言論已成為推特上的麻煩事,重要的是將這類推文與其他的分開。在這個實際問題中,我們同時提供正常的和仇恨型推文的推特資料。你作為資料科學家的任務是確定哪些推文是仇恨型推文,哪些不是。


大小:3 MB

記錄數量:31,962條推文


  • Age Detection of Indian Actors

對於任何深度學習愛好者來說,這是一個令人著迷的挑戰。該資料集包含數千個印度演員的圖像,你的任務是確定他們的年齡。所有圖像都是手動選擇,並從視頻幀中剪切的,這使得尺度,姿勢,表情,照度,年齡,解析度,遮擋和化妝的高度干擾性。


大小:48 MB(壓縮)

記錄數量:訓練集中的19,906幅圖像和測試集中的6636幅圖像

SOTA:Hands on with Deep Learning – Solution for Age Detection Practice Problem


  • Urban Sound Classification


這個資料集包含超過8000個來自10個類別的城市聲音摘錄。這個實踐問題是為了在向您介紹常見分類方案中的音頻處理。


大小:訓練集-3 GB(壓縮),測試集- 2 GB(壓縮)

記錄數量:來自10個類別的8732個城市聲音標註的聲音片段(<= 4s)


如果您知道其他開源資料集,可以用來推薦其他人開始他們的深度學習/非結構化資料集之旅,請隨時把它們推薦給我們並附上應該包括這些資料集的原因。


如果原因很好,我會把它們列入清單。我們非常歡迎您在評論區域讓我們知道使用這些資料集的經驗。最後祝大家學習愉快!


原文標題:25 Open Datasets for Deep Learning Every Data Scientist Must Work With

原文鏈接:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

譯者簡介:陳之炎,北京交通大學通信與控制工程專業畢業,獲得工學碩士學位,歷任長城計算機軟體與系統公司工程師,大唐微電子公司工程師,現任北京吾譯超群科技有限公司技術支持。目前從事智慧化翻譯教學系統的運營和維護,在人工智慧深度學習和自然語言處理(NLP)方面積累有一定的經驗。業餘時間喜愛翻譯創作,翻譯作品主要有:IEC-ISO 7816、伊拉克石油工程專案、新財稅主義宣言等等,其中中譯英作品“新財稅主義宣言”在GLOBAL TIMES正式發表。

END

版權宣告:本號內容部分來自互聯網,轉載請註明原文鏈接和作者,如有侵權或出處有誤請和我們聯繫。


關聯閱讀:

原創系列文章:

1:從0開始搭建自己的資料運營指標體系(概括篇)

2 :從0開始搭建自己的資料運營指標體系(定位篇)

3 :從0開始搭建自己的資料運營體系(業務理解篇)

4 :資料指標的構建流程與邏輯

5 :系列 :從資料指標到資料運營指標體系

6:   實戰 :為自己的公號搭建一個資料運營指標體系

7:  從0開始搭建自己的資料運營指標體系(運營活動分析)

資料運營 關聯文章閱讀:  

運營入門,從0到1搭建資料分析知識體系    

推薦 :資料分析師與運營協作的9個好習慣

乾貨 :手把手教你搭建資料化用戶運營體系

推薦 :最用心的運營資料指標解讀

乾貨 : 如何構建資料運營指標體系

從零開始,構建資料化運營體系

乾貨 :解讀產品、運營和資料三個基友關係

乾貨 :從0到1搭建資料運營體系

資料分析、資料產品 關聯文章閱讀:

乾貨 :資料分析團隊的搭建和思考

關於用戶畫像那些事,看這一文章就夠了

資料分析師必需具備的10種分析思維。

如何構建大資料層級體系,看這一文章就夠了

乾貨 : 聚焦於用戶行為分析的資料產品

如何構建大資料層級體系,看這一文章就夠了

80%的運營註定了打雜?因為你沒有搭建出一套有效的用戶運營體系

從底層到應用,那些資料人的必備技能

讀懂用戶運營體系:用戶分層和分群

做運營必須掌握的資料分析思維,你還敢說不會做資料分析

赞(0)

分享創造快樂