歡迎光臨
每天分享高質量文章

Fashion-MNIST資料集發佈一周年,論文取用量超250篇

作者簡介:肖涵博士,Fashion-MNIST 資料集作者。現為騰訊 AI 部門高級科學家、德中人工智慧協會主席。他曾於 2014-2018 年初就職於位於德國柏林的 Zalando 電商,先後在其推薦組、搜索組和 Research 組,擔任高級資料科學家。


肖涵在德國慕尼黑工業大學計算機系取得了博士(2014)和碩士學位(2011),博士方向為對抗機器學習。這期間曾在國立臺灣大學資工所做訪問學者(2013)。赴德前,他曾在北京郵電大學取得了信息通信學士學位(2009)。肖涵所創辦的德中人工智慧協會如今擁有 400 餘名會員,致力於德中兩國 AI 領域的合作與交流。


個人微信:hxiao1987

Blog:https://hanxiao.github.io


引言

距離我 2017 年 8 月發佈 Fashion-MNIST 資料集已經有一年的時間了。正如我在其 README 中寫到的那樣:Fashion-MNIST 的標的是要替代經典數字 MNIST 資料集,幫助研究者更好的評測和理解機器學習演算法。在過去的一年裡,我看到 ML/AI 社區朝這個方向不斷前進著。越來越多的研究人員、工程師、學生和愛好者和初學者都愛上了這個資料集。 


資料集專案地址:

https://github.com/zalandoresearch/fashion-mnist


今天你可以在網上找到關於 Fashion-MNIST 數以千計的討論、代碼和教程。在 Github [1],Fashion-MNIST 已經獲得了超過 4100 顆星星,被取用在 400 多個代碼倉庫中,1000 多條 commits 里和 7000 多個代碼片段中。在 Google Scholar [2] 中,超過 250 篇學術論文使用或取用了 Fashion-MNIST 資料集。甚至連來自 AAAS 的「科學」(Science)雜誌都取用了這個資料集。而在 Kaggle [3] 上,這個資料集在數千個資料集中是名列前茅,並附有 300 多個 Kernels。目前,所有主流的深度學習庫都內置了這個資料集:你只需要一行 `import`,就可以直接使用它。 


毫無疑問,Fashion-MNIST 是一個非常成功的專案。在這裡,我會對它在過去一年裡所取得的重要成就做一個總結。


我為什麼會做Fashion-MNIST?

2017 年 8 月的一天,那時我還在 Zalando Research 部門工作。我的上司讓我調研一把生成對抗網絡(GAN)並實現其中一兩個模型,藉機熟悉一下。我很快就寫完併在 MNIST 資料集上做了測試。但我發現在 MNIST 上的生成結果似乎總是不錯,無論你用的網絡複雜度如何,引數設置如何。


或許因為 MNIST 過於簡單?於是,我決定增加一些難度,把公司資料庫中的衣服圖片扔到網絡里去。很顯然,這就需要我重新寫一個用於輸入處理的 pipeline:把圖片居中、調整白平衡、縮放等等,最後再載入到模型中。最終,我決定將圖片做離線處理後,儲存為 MNIST 的格式,省去了自己寫 data loader。


這就是 Fashion-MNIST 最初的第一個版本,隨後的幾天里,我一直在玩這個新資料集,利用它做各種實驗。同時,我不斷改善它的圖片質量,併在 Tensorflow,Keras 中為它提供更通用的 API 接口。最終,我把它發佈為公司內部的一個開源專案(inner source project)。


在我的前同事 Kashif Rasul 和 Lauri Apple 的鼓勵下,我們最終決定把這個資料集發佈到 Github 和 arXiv 上。為了在國際上擴大影響力,我也將資料集的說明翻譯成了中文和日文。


剩下的事情可能大家都已經知道了:這個資料集最先被 Reddit 下的 r/MachineLearning 板塊討論,隨後迅速在 HackerNews,Github,Twitter 和 Facebook 上傳播開來。連續三天內,Fashion-MNIST 成為 Github 上最熱門的開源專案之一。幾天后,甚至 Yann LeCun 本人都在他的 Facebook 主頁上發帖鼓勵大家嘗試這個新資料集。


在這次的經歷中,我想特別感謝我的前同事 Lauri Apple 的支持。Lauri 是一位長期致力於開源事業的女性。在一開始,我的想法(採用 Fashion-MNIST 替換 MNIST)遭到其他人的嘲笑和不理解,他們認為圈子裡根本不會在乎這個資料集。這個時候,Lauri 站了出來告訴我:那些真正做出改變的人永遠是那些相信改變的人people who actually make change are the ones who believe that change is possible)。

Fashion-MNIST對學術圈的貢獻


在我今天寫這篇總結的時候,已經有超過 260 篇學術論文在實驗環節取用或使用了 Fashion-MNIST 資料集(根據截止至 9 月 18 日的 Google Scholar結果 [4])。考慮到資料集僅僅發佈 1 年,這個數量還是非常可觀的。經過一番篩選之後,我留下了其中 247 篇放在了一個 Google 表格裡 [5],大家可以自行查閱。


那麼這 247 篇論文出自誰之手,在哪發表,又研究了哪些問題?在下麵,我會向大家做一個全面的介紹。


頂級AI研究機構青睞Fashion-MNIST


下圖給出了 247 篇論文中按照機構的統計圖。如果一篇論文由多個機構合作完成,則在統計時每個機構都加 1。而如果一篇論文中多個作者來自同一機構,則這一機構只加 1。並且,我還把同組織的機構合併在一起,比如 Google Research,Google Brain,Deep Mind 合併為了 Google;馬普(Max Planck Institute)旗下的信息所、智慧所和量子光學所合併為 Max Planck Institute。為了更加清晰的展示,論文數量小於 3 機構沒有在這裡展示,但大家仍然可以在上述 Google 文件 [5] 中查看全部機構的統計串列。


在這個圖表中,我們不難發現來自北美、亞洲和歐洲地區頂尖的 AI 研究機構。在它們之中,Google 以 9 篇使用 Fashion-MNIST 的論文位居榜首。其次是英國劍橋大學,7 篇;IBM Research、加拿大蒙特利爾大學、北京大學和加州大學洛杉磯分校以 6 篇併列第三。中國方面,除北京大學外,中科院、南京大學、清華大學及京東也非常青睞 Fashion-MNIST 這個資料集。


而在工業界,除了已經列出的 Google,IBM Research 和 Microsoft,在完整串列中可以找到更多大家耳順能詳的公司 Facebook(2 篇), Telefónica Research(2篇),Uber(1 篇),Apple(1 篇), Samsung(1 篇), 華為(1 篇)和 Twitter(1 篇)。同時,我還註意到有不少北美地區的機器視覺創業公司也在 Fashion-MNIST 資料集上做了非常有意思的研究,併發表了高質量的論文。

美中兩國在AI領域的競爭和合作


下圖展示了這些文章出自於哪些國家或地區。如果一個論文由多個國家或地區合作完成,則在統計時每個國家或地區時都加 1。而如果一篇論文中多個作者來自同一國家或地區,則這一國家或地區只加 1。為了更清晰的展示結果,論文數量小於 4 的國家或地區沒有在這裡展示,但大家仍然可以在這裡 [5] 查看全部國家或地區的統計串列。



很明顯,美國以 94 篇取用 Fashion-MNIST 的論文的絕對多數占據了榜首,其次是中國 44 篇。加拿大、英國德國的研究人員也顯示了對這個資料集的濃厚興趣,分列第 3、4、5 位。榜上前 5 名的國家貢獻了大約 50% 的論文量。總體來講,共有來自 38 個國家的研究人員在他們的論文中使用了這個資料集。


儘管中美之間貿易戰的烏雲籠罩,AI 領域競爭激烈,但我們仍然看到兩國在 AI 研究領域中大量的合作。在過去的一年內,兩國共有 10 篇合作的論文使用了 Fashion-MNIST 資料集,高於任何其他兩國之間的合作。其次是英國和德國,共合作了 4 篇論文。完整的國家地區合作串列可以在這裡 [5] 看到。


把政治偏見放在一旁,我非常願意看到更多的國家與國家之間在 AI 領域的合作。這也是 Fashion-MNIST 的使命之一:增加整個社區的凝聚力和多元化。特別是今天,當 AI 技術已經越出象牙塔,國與國之間的交流合作變得極為重要。


頂級會議青睞Fashion-MNIST


當然,論文不是靠數量而是靠質量取勝的。那麼這些論文都是在哪裡發表的呢?他們的質量又如何呢?下圖給出了按照會議和期刊的統計表。我只統計了過去一年中已經確定被正式錄取的論文,而那些正在審核狀態的論文並沒有在這個圖表中展示。完整的串列可以在這裡 [5] 查看。



大部分的論文都是在 2018 年涌現出來的,尤其是在諸如 NIPS,ICLR,ICML 等頂會。在 NIPS 2018 中,一共有 17 篇錄用的論文使用了 Fashion-MNIST數 據集。而 2017 年這個數字是:零。不過這顯而易見,因為在 NIPS 2017 年的 5 月份的投稿截止時,Fashion-MNIST 還沒有誕生。而在稍後一點的 11 月戒指的 NIPS 2017 Workshop 中,我們已經可以看到研究者在論文中使用了這個資料集。 


除了在會議上發表,也有很多畢業論文和頂級期刊中取用到了 Fashion-MNIST,其中知名的期刊包括:Journal of Machine Learning Research(2 篇),Neurocomputing(2 篇),Nature Communications(1 篇)和 Science(1 篇)。


Fashion-MNIST 在「科學」雜誌中被取用



這其中最讓我驕傲的一篇論文取用,發表在 Science 科學雜誌上。 在這篇題為 All-optical machine learning using diffractive deep neural networks [6] 的 Science 論文中,一個來自加州大學洛杉磯分校的團隊建造了一個全光學的深度“神經”網絡,並且用 3D 印表機打印了出來。這個光學深度神經網絡功能上沒什麼不同,它能對 MNIST/Fashion-MNIST 的圖像進行分類,只不過它的分類速度是——光速!


下圖展示了 MNIST 和 Fashion-MNIST 模型上 5 個不同的物理層。這些層可以被 3D 打印出來,而層上面的每個點都有著不同的功能:或是允許光子通過,或是直接把光子反射回去,這就好比神經元之間的連接。在下圖右側,就是一個打印出的 3D 打印的全光學神經網絡。


在實際分類時,這個 3D 打印的網絡被放在如下的儀器中。通過判斷在最後一層上光學信號最強的區域來獲得分類結果。


GAN研究者青睞Fashion-MNIST


生成對抗網絡(GAN)近幾年一直是深度學習領域的研究重點,尤其是在圖像生成、圖像處理等應用領域,GAN 經常能取得驚人的效果。也不難理解為什麼 GAN 的研究員喜歡 Fashion-MNIST 這個資料集:它比較輕量;不需要重新寫 data-loader;卻比 MNIST 包含更複雜的和多元的區域性樣式信息。


對於圖像 GAN 的研究者來說,在打造一個新的演算法時,第一個測試就是在 MNIST 和 Fashion-MNIST 上進行測試。下圖展示了 247 篇論文按照關鍵詞分類結果。很多論文作者沒有提供關鍵詞,對於這些論文,我在讀過 Abstract 和 Related Work 後,為這些論文手工總結了一些關鍵詞。為了更清晰的展示結果,論文數量小於 5 的關鍵詞沒有在這裡展示,但大家仍然可以在這裡 [5] 查看全部關鍵詞的統計串列。


新的機器學習演算法也喜歡使用 Fashion-MNIST 來做評測,例如膠囊網絡(Capsule Networks)。膠囊網絡自從發表以來就收到很多的討論:有不少人質疑膠囊網絡從設計上是否為 MNIST 做了特別的優化,而這種結構是否在其他資料集上仍然有效。不說大的 ImageNet 資料集,膠囊網絡是否在 Fashion-MNIST 上仍然有效呢?在過去的一年裡,有 9 篇新的膠囊網絡在論文實驗中使用了 Fashion-MNIST 資料集。他們設計了更穩定的路由演算法以確保空間特征能夠保留住。


Fashion-MNIST對社區的貢獻


在我發佈 Fashion-MNIST 幾周後,我受邀到亞馬遜柏林辦公室做了一個演講 [7]。在問答環節,我被一個研究員問道,是否擔心 Fashion-MNIST 成為那些懶惰的研究員逃避現實問題的一個藉口。畢竟,他們現在可以說自己的演算法有了份“雙保險”(在兩個 MNIST 上驗證過了)。


這個社區從來沒有讓我失望,這些高質量的論文已經很好的證明瞭自己。而除了學術圈的論文,這個社區還找到了 Fashion-MNIST 另一個重要用途:教學。在網上你可以找到數以千計的討論、代碼和教程,尤其是在機器學習入門的第一講。


Fashion-MNIST 增加了整個社區的多元化:它吸引了很多年輕的 AI(特別是女性)愛好者、學生甚至是藝術家和設計師。他們在 Twitter 上表示,第一眼看到這個資料集都會覺得非常可愛,因此很想動手實踐。


在 2018 年 9 月,Google 在中國舉辦的開發者大會上,來自 Google 的演講者使用 Fashion-MNIST 作為例子向在場的數百名參會者普及 Keras 深度學習庫和機器學習技術。而就在前幾天,2018 年 10 月,Google Colab 發佈的 TPU 示例 [8] 中,也使用了 Fashion-MNIST 作為演示的例子來展現 TPU 的超強算力。


總結


人工智慧的進步需要來自整個社區的共同努力。我很欣慰的看到在過去的一年裡,Fashion-MNIST 為這個社區做出了自己的貢獻:它不僅吸引了多元化背景的愛好者,也促進研究人員設計更嚴密更具說服力的實驗。所以無論你是研究員、學生、教授還是愛好者,無論你是想把 Fashion-MNIST 用在講座、論文、研討會、競賽還是培訓中,只要你喜歡,都可以去做。最重要的是享受技術帶來的樂趣,讓更多的人體驗到機器學習和人工智慧的魅力。


相關鏈接


[1]. https://github.com/search?q=fashion-mnist

[2]. https://scholar.google.com/scholar?hl=en&as;_sdt=0%2C5&q;=fashion-mnist&btnG;=&oq;=fas

[3]. https://www.kaggle.com/zalando-research/fashionmnist

[4]. https://scholar.google.com/scholar?hl=en&as;_sdt=0%2C5&q;=fashion-mnist&btnG;=&oq;=fas

[5]. https://docs.google.com/spreadsheets/d/1cGX7Juedn_KVUgjDk298v5uUjc_wPk930tKyEoZhTQM/edit?usp=sharing

[6]. http://innovate.ee.ucla.edu/wp-content/uploads/2018/07/2018-optical-ml-neural-network.pdf

[7]. https://www.slideshare.net/HanXiao4/fashionmnist-a-novel-image-dataset-for-benchmarking-machine-learning-algorithms

[8]. https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/fashion_mnist.ipynb

點擊以下標題查看更多論文解讀: 


#投 稿 通 道#

 讓你的論文被更多人看到 


如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

來稿標準:

• 稿件確系個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接 

• PaperWeekly 預設每篇文章都是首發,均會添加“原創”標誌


? 投稿郵箱:

• 投稿郵箱:hr@paperweekly.site 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通



?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關註」訂閱我們的專欄吧

關於PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 | 閱讀原文 | 獲取最新論文推薦

赞(0)

分享創造快樂