歡迎光臨
每天分享高質量文章

用谷歌新發佈的 Dataset Search 搜 Linus,結果……

(點擊上方公號,快速關註我們)


來源:開源中國社區

www.oschina.net/news/99717/what-s-google-dataset-search?origin=zhzd


前天,谷歌發佈了一款重磅產品 Google Dataset Search,谷歌表示其宗旨是“Making it easier to discover datasets”,讓用戶更容易找到想要的資料集。



當下,許多學科的科學家和越來越多的寫手需要與資料打交道,網上有成千上萬的資料儲存庫,可以訪問數百萬個資料集,同時世界各個國家與地區政府也在網上公佈他們的資料。谷歌表示,Dataset Search 的初衷正是為了能夠讓人們更加輕鬆地訪問這些資料。


此次發佈的 Dataset Search 其實也是 Google 將資料集更進一步納入產品中的一系列舉措之一,上個月我們報導過 Google 該系列舉措的另一項,也就是 Google 與 30 位頂級資料記者合作,希望找到以表格形式改進信息呈現的方法,最終在通力合作之下,他們確定了在搜索傳回結果中直接直觀顯示資料表格的方法,使用戶更容易找到他們想要的信息。


Google 介紹,Dataset Search 的工作方式與 Google Scholar 類似,首先需要資料集提供者使用 schema.org 標準來描述其資料集,當用戶在 Dataset Search 上搜索時,它將在任何托管位置查找相應資料集,包括發佈者的網站、數字圖書館與作者的個人網頁等。


關於如何將資料集錄入 Dataset Search,Google 解釋,“基於描述資料集信息的開放標準 schema.org,我們為資料集提供商制定了指南,以 Google(和其它搜索引擎)可以更好地理解頁面內容的方式描述其資料。這些指南包括有關資料集的重要信息:資料集創建者、發佈時間、資料收集方式、使用資料的條款等。然後我們收集並鏈接此信息,分析其中同一資料集的不同版本可能在哪裡,並找到可能描述或討論資料集的出版物。”


搜了一下 “Linus Torvalds”,發現還真有結果,而且傳回的是讓人哭笑不得的內容:



搜索結果是一個來自 data.world 的資料集,“Linus Torvalds Rants”是“Linus Torvalds 發飆”的意思,嗯,這很 Linus。


興奮地點進去(嗯?為什麼我要興奮),果然發現了寶藏:



原來這個資料集收集了 Linus 從 2012 年到 2015 年間在郵件串列上發過的飆。這裡順便提一下今年 6 月份 Linus 也發了一次大飆:有時候標準就是一坨屎


按照指示,把該“Linus 發飆合集”在工作區打開後是下邊這樣的,大概感受一下:



試了一下,資料集中的條目確實可以訪問到原始郵件,佩服 Linus 的高產,也為 Dataset Search 點贊,真的太方便了。如果哪天想以 Linus 的發怒為基線來寫一個 Linux 內核的發展歷程,那這樣的搜索神器就幫大忙了。


Google 在國內素有“谷人希”(谷歌,人類的希望)的美譽,此次發佈的 Dataset Search 又造福了人類。

【關於投稿】


如果大家有原創好文投稿,請直接給公號發送留言。


① 留言格式:
【投稿】+《 文章標題》+ 文章鏈接

② 示例:
【投稿】
《不要自稱是程式員,我十多年的 IT 職場總結》:http://blog.jobbole.com/94148/


③ 最後請附上您的個人簡介哈~

看完本文有收穫?請轉發分享給更多人

關註「資料分析與開發」,提升資料技能

赞(0)

分享創造快樂