歡迎光臨
每天分享高質量文章

乾貨 :什麼是資料科學?如何把資料變成產品?

本文轉自:O’Reilly(www.oreilly.com.cn);作者:麥克.羅克德斯(Mike Loukides);

另外,文末有乾貨福利哦


未來屬於那些知道如何把資料變成產品的企業和個人。

    –麥克.羅克德斯(Mike Loukides)

據哈爾•瓦里安(Hal Varian)說,統計學家是下一個性感的工作。五年前,在《什麼是Web 2.0》裡蒂姆•奧萊利(Tim O’Reilly)說“資料是下一個Intel Inside”。但是這句話到底是什麼意思?為什麼我們突然間開始關註統計學和資料?

在這篇文章裡,我會檢視資料科學的各個方面,技術、企業和獨特技能集合。

網際網路上充斥著“資料驅動的應用”。幾乎任何的電子商務應用都是資料驅動的應用。這裡面前端的頁面靠背後的資料庫來支援,它們兩者之間靠中介軟體來連線其他的資料庫和資料服務(信用卡公司、銀行等等)。但是僅僅使用資料並不是我們所說的真正的“資料科學”。一個資料應用從資料裡獲取價值,同時創造更多的資料作為產出。它不只是帶有資料的一個應用,它就是一個資料產品。而資料科學則是能建立這樣的資料產品。

網際網路上早期的資料產品之一就是CDDB資料庫。CDDB資料庫的開發者意識到基於CD(音訊光碟)裡面的每首歌曲的確切長度,任何CD都有一個唯一的數字簽名。Gracenote公司建立了一個資料庫,記錄著歌曲的長度,並和專輯的元資料(歌曲名稱、歌手和專輯名稱)資料庫關聯。如果你曾經使用iTunes來找CD,你就是在使用這個資料庫服務。iTunes會先獲取每首歌的長度,然後發給CDDB,從而得到歌曲的名稱。如果你有一些CD(比如你自製的CD)在資料庫裡沒有記錄,你也可以在CDDB裡創造一個無名專輯的題目。儘管看起來很簡單,但這是革命性的。CDDB把音樂看成是資料,而不僅僅是聲音,並從中創造了新的價值。他們的商業樣式和傳統的銷售音樂、共享音樂或者分析音樂口味等業務的樣式截然不同,儘管這些業務也可以是“資料產品”。CDDB完全是視音樂的問題為資料的問題。

谷歌是創造資料產品的專家,這裡列幾個例子。

  • 谷歌的創新是在於其意識到搜尋引擎可以使用入連結而不是網頁上的文字。谷歌的PageRank演演算法是最早一批使用網頁以外的資料的演演算法之一,特別是網頁的入連結數,即其他網頁指向某網頁的數量。記錄連結讓谷歌的搜尋引擎比其他的引擎更好,而PageRank則是谷歌的成功因素中非常關鍵的一條。

  • 拼寫檢查不是一個非常難的任務,但是透過在使用者輸入搜尋關鍵詞時,向錯誤拼寫推薦正確的用法並檢視使用者是如何回應推薦,谷歌讓拼寫檢查的準確率大幅提高。他們還建立起了常見錯誤拼寫的字典,其中還包括對應的正確拼寫以及錯誤拼寫常見的背景關係。

  • 語音識別也是一個非常艱難的任務,而且也還沒有完全被解決。但谷歌透過使用自己收集的語音資料,已經開始了針對這個難題的一個宏大的嘗試。並已把語音搜尋整合到了核心搜尋引擎裡。

  • 在2009年豬流感的傳播期,谷歌能夠透過跟蹤與流感相關的搜尋來跟蹤這次豬流感的爆發和傳播過程。

透過分析搜尋跟流感相關的使用者在不同地區的情況,谷歌能夠比美國國家疾病控制中心提前兩周發現豬流感的爆發和傳播趨勢。

谷歌並不是唯一一家知道如何使用資料的公司。臉書和領英都是用朋友關係來建議使用者他們可能認識或應該認識的其他人。亞馬遜會儲存你的搜素關鍵詞,並使用別人的搜尋詞來關聯你的搜尋,從而能令人驚訝地做出恰當的商品推薦。這些推薦就是資料產品,能幫助推進亞馬遜的傳統的零售業務。所有這些都是因為亞馬遜明白書不僅僅是書,而相機也不僅僅是相機,使用者也不僅僅就是一個使用者。使用者會產生一連串“資料排氣”,挖據它並使用它,那麼相機就變成了一堆資料可以用來和使用者的行為進行關聯。每次使用者訪問他們的網站就會留下資料。


把所有這些應用聯絡到一起的紐帶就是從使用者那裡採集的資料來提供附加價值。無論這個資料是搜尋關鍵詞、語音樣本或者產品評價,現在使用者已經成為他們所使用的產品的反饋環中重要的一環。這就是資料科學的開端。


在過去的幾年裡,可用的資料量呈爆炸性的增長。不管是網頁日誌資料、推特流、線上交易資料、“公民科學”、感測器資料、政府資料或其他什麼資料,現在找到資料已經不再是問題,如何使用這些資料才是關鍵。不僅僅是企業在使用它自己的資料或者使用者貢獻的資料。越來越常見的是把來自多個資料源的資料進行“聚合”。《在R裡進行資料聚合》分析了費城郡的房屋抵押贖回權的情況。它從郡長辦公室獲得了房屋抵押贖回權的公開記錄,抽取了其中的地址資訊,再使用雅虎把地址資訊轉換成了經緯度。然後使用這些地理位置資訊把房屋抵押贖回權的情況繪製在地圖上(另外一個資料源)。再把它們按社群、房屋估值、社群人均收入和其他社會—-經濟因素進行分組。


現在每個企業、創業公司、非營利組織或專案網站,當他們想吸引某個社群的時候所面臨的問題是,如何有效的使用資料。不僅僅是他們自己的資料,還包括所有可用的和相關的資料。有效的使用資料需要與傳統的統計不同的技能。傳統的穿職業西裝的精算師們進行著神秘但其實是早已明確定義的分析。而資料科學與統計的不同是資料科學是一種全盤考慮的方法。我們越來越多的在非正規的渠道里找到資料,資料科學正隨著資料的不斷收集、把資料轉換為可處理的形式、讓資料自己講故事以及把故事展現給別人不斷演進。


為了能感受到什麼樣的技術是資料科學需要的,讓我們首先看看資料的生命週期:資料從哪裡來,如何使用,以及資料到哪裡去。

資料從哪裡來

資料無處不在,政府、網站、商業夥伴、甚至你自己的身體。雖然我們不是完全淹沒在資料的海洋裡,但可以看到幾乎所有的東西都可以(甚至已經)被測量了。在O’Reilly傳媒公司,我們經常會把來自Nielsen BookScan的行業資料和我們自己的銷售資料、公開的亞馬遜資料、甚至就業資料組合起來研究出版行業發生了什麼。一些網站,比如Infochimps和Factual,可以提供很多大型資料集的連線,包括天氣資料、MySpace的活動流資料、體育活動比賽記錄等。Factual網站還招募使用者來更新和改進它的資料集。這些資料集改寫了從內分泌學家到徒步小道等的廣泛內容。


很多我們現在所用的資料都是Web 2.0的產物,也遵守摩爾定律。Web讓人們花更多的時間線上,同時也留下了他們的瀏覽軌跡。移動端應用則留下了更豐富的資料軌跡,因為很多應用都被標註了地理位置資訊或附帶著音訊和影片。這些資料都可以被挖據。結帳點裝置和經常購物者購物卡使得獲取消費者的所有交易資訊(不光是線上資訊)成為可能。如果我們不能儲存這些資料,那麼所有這些資料就將沒有用處。這裡就是摩爾定律起作用的地方。自80年代早期開始,處理器的速度就從10Mhz增加到了3.6GHz,增加了360倍(這還沒考慮處理位數和核數的增加)。但是我們看到儲存能力的增加則更為巨大。記憶體價格從1000美元每兆位元組降到25美元每吉位元組,幾乎是40000倍的降低。這還沒考慮記憶體尺寸的減少和速途的增加。日立公司在1982年製造了第一個吉位元組的硬碟,重大概250磅。現在千吉位元組級別的硬碟已經是普通消費品,而32吉位元組的微儲存卡只有半克重。無論是每克重的位元數、每美元位元數或者總儲存量,儲存能力的提升已經超過了CPU速度的增幅。


摩爾定律應用於資料的重要性不僅是極客的技巧。資料的增長總是能填充滿你的儲存。硬碟容量越大,也就能找到更多的資料把它填滿。瀏覽網頁後留下的“資料排氣”、在臉書上新增某人為朋友或是在本地超市買東西,這些資料都被仔細的收集下來併進行分析。資料儲存的增加就要求有更精緻的分析來使用這些資料。這就是資料科學的基石。


那麼,我們怎麼能讓資料有用?任何資料分析專案的第一步都是“資料調節”,即把資料變換成有用的狀態。我們已經看到了很多資料的格式都是易用的:Atom資料釋出、網路服務業務、微格式和其他的新技術使得資料可以直接被機器消費。但是老式的“螢幕抓取”方法並沒有消亡,而且也不會消亡。很多“非正規”資料源來的資料都是很混亂的。他們都不是很好構建的XML檔案(並帶有所有的元資料)。在《在R裡做資料聚合》裡使用的房屋抵押贖回權資料都是釋出在費城郡長辦公司的網站上。這些資料都是HTML檔案,很可能是從某個資料表格檔案裡自動生成的。如果曾經見過這些由Excel生產的HTML檔案,你就知道處理這個會是很有趣的。


資料調節也包括用類似Beautiful Soup這樣的工具來清理混亂的HTML檔案,用自然語言處理技術來分析英語和其他語言的純文字,或用人工來乾苦活和臟活。你有可能會處理一系列資料源,而他們各自的格式都不同。如果能有一個標準的工具集來處理這些就太好了,可實際上這是不現實的。為了做資料調節,你需要準備好處理任何的資料格式,並願意使用任何的工具,從原始的Unix工具(如awk)到XML語意分析器和機器學習庫。指令碼語言,比如Perl和Python,就很重要了。


一旦你分析了資料,就可以開始思考資料的質量問題了。資料經常會有缺失和不一致。如果資料缺失了,你是要簡單地忽略他們嗎?這也不總是可以的。如果出現資料不一致,你是否要決定某些表現不好的資料(是裝置出錯了)是錯的,或者這些不一致的資料恰恰是在講述它自己的故事,而這就更有趣。有報道說,臭氧層消耗的發現被延誤了,因為自動資料收集工具丟棄了那些數值過低的讀數1。在資料科學裡,你能有的經常是你將會拿到的。通常你不可能得到更好的資料,你可能沒有其他的選擇除了使用你手頭有的資料。


如果研究的問題涉及到人類的語言,那理解資料就又給問題增加了一個維度。O’Reilly的資料分析組的主管羅傑.馬古拉斯(Roger Magoulas)最近在為蘋果公司招聘公告串列搜尋資料庫,這需要有地理位置技能。這聽起來像是個簡單任務,這裡的坑就是從很多招聘公告串列裡去發現真正的“蘋果”的工作,而不是那些大量增加的蘋果附屬的工業企業。為了能更好的完成這個任務,就需要能理解一個招聘公告的語法結構,即你需要能解析英語語意。這樣的問題已經變的越來越常見。比如你試著去用谷歌趨勢(Google Trend)去檢視Cassandra資料庫或者Python語言正在發生什麼,你就能感受到這個問題了。因為谷歌已經為很多關於大型蛇類的網站建立了索引。歧義消除從來都不是一個簡單的任務,但是類似於Natural Language Toolkit這樣的庫可以讓這個工作簡單一點。


當自然語言處理失效時,你可以用人的智慧來代替人工智慧。這就是類似亞馬遜的Mechanical Turk這樣的業務所服務的標的。如果你能把你的任務分解成非常多的容易表述子任務,你就可以使用Mechanical Turk的市場來招募很便宜的工人。例如,你想檢視招聘公告串列併發現哪些是真正來自蘋果公司,你可以招募工人來做分類,價格大概是一美分一個公告。如果你已經把這個串列的數目降到一萬條有蘋果字樣的公告,那麼只要付100美元就可以讓人工來分類了。

處理海量的資料

我們已經聽說了很多的“大資料”,但是“大”只是轉移註意力的話。石油公司、電信公司和其他資料密集型的行業早就已經在相當長的時間裡擁有了海量的資料集。伴隨著儲存能力的持續增長,今天的“大資料”肯定會變成明天的“中資料”或者日後的“小資料”。我所聽到的最有意義的定義是:“大資料”是指資料的量本身成為問題的一部分。我們討論資料量的問題可從吉位元組級到千吉位元組不等,在某些時刻,傳統的資料處理技術已經不能勝任了。


面對這樣不同的資料,我們正試圖做什麼?根據傑夫.哈默巴赫爾(Jeff Hammebacher)2所說,我們正在構建資訊平臺或資料空間。資訊平臺和傳統的資料倉庫類似,但不同。他們暴露了很豐富的API(應用程式介面),並被設計為用來支援探索和分析理解這些資料,而不是隻為傳統的分析和報表。這些平臺接收所有的資料格式,包括最混亂的那些,他們的資料樣式隨著對資料理解的改變而不斷進化。


大部分構建資料平臺的企業都發現很有必要超越傳統的關係型資料庫。傳統的關係型資料庫系統在到一定資料量級後開始效率降低,甚至無效。管理在一群資料庫伺服器間分享和複製資料是很困難的,且很慢。同時關係型資料庫需要預先定義好資料樣式,而這與多資料源的非結構化資料現狀是衝突的,因為你甚至都不知道什麼是最重要的直到你開始分析資料。關係型資料庫被設計來滿足一致性的,這是為了支援複雜的交易過程,以便於當交易過程中的任何一個環節出錯時,可以很方便的回滾。儘管嚴格一致性對於很多應用是很重要的,但這對於我們這裡所談論的分析任務並不是完全必須的。你真的會在乎是有1010個或者1012個推特的關註者?精確是很誘人的,但是對於絕大部分金融領域以外的資料驅動的應用,精確是個偽命題。大部分資料分析都是比較性的,如果你想知道是否東歐地區的銷售增長比南歐地區快,你並不關心這個差別是5.92%年增長,還是5.93%。


為了能有效地儲存資料,出現了不少新型的資料庫。他們經常被叫做NoSQL資料庫,或非關係型(Non-Relational)資料庫,儘管兩個名詞都沒什麼用。這些名詞把本質上完全不同的產品歸到一類裡,但其實只說明瞭他們不是什麼。很多的這些資料庫都是谷歌的BigTable和亞馬遜的Dynamo的後代。它們被設計來實現分佈於多節點,並提供“最終一致性”而不是絕對一致性,同時也支援非常靈活的資料樣式。儘管有多達二十個這樣的資料庫產品,大部分都是開源的,只有少數幾個已經在業界確立了他們的地位。

  • Cassandra:由臉書開發,已經在推特、Rackspace、Reddit和其他大型網站的生產系統上使用。Cassandra被設計成高效能、高可靠性和可自動複製。它有一個非常靈活的資料模型。創業公司Riptano提供對它的商業化支援。

  • HBase:是基於谷歌的BigTable,並變成Apache Hadoop的一個子專案。設計用於極大的資料庫(超過十億行、百萬列),分散式儲存於上千個節點。它跟Hadoop一起,可由Cloudera公司提供商業化的支援。


儲存資料只是構建資料平臺的一部分,資料的價值只有在被使用後才能出現,而巨大的資料量又帶來了新的計算難題。谷歌讓MapReduce方法變得流行。MapReduce方法本質上是一種分而治之的策略,用以處理在一個超大的叢集上的超級大的問題。在“Map”階段,一個單一的計算任務被分成了眾多的相同的子任務,然後這些子任務被分配到很多的處理節點上執行。子任務產生的中間結果隨後被匯聚,交給Reduce任務們來處理。事後看,MapReduce任務似乎是對於谷歌的最大的問題(建立大的搜尋引擎)的一個顯而易見的解決方案。很容易把一個搜尋分佈到上千個節點裡,然後在把結果匯聚成一個單一的答案。沒有那麼顯而易見的是MapReduce已被證明對於很多大型資料的問題都可用,不管是搜尋還是機器學習。


最流行的MapReduce的開源實現是Hadoop專案。雅虎宣傳他們已經構建了世界上最大的生產Hadoop叢集,有一萬個CPU核心,執行在Linux上。很多Hadoop開發者也認可了Cloudera的商業版Hadoop。亞馬遜的Elastic MapReduce是在亞馬遜的EC2叢集上提供了預先配置好的Hadoop映象檔案,這讓部署Hadoop非常簡單,也不用客戶自己購買Linux伺服器。客戶可以按需增加和減少處理器,而只需按使用時間來付費。


Hadoop已經遠遠超越了單純的MapReduce的實現,他是一個資料平臺的核心部件。它包括了HDFS,一個保證高效能和可靠性需求的超大資料分散式檔案系統;HBase資料庫;Hive,一個可以讓開發者使用類SQL的查詢來探索Hadoop資料的工具;一個叫Pig的高階資料流語言;以及其他很多的部件。如果有任何的東西可以叫一站式資訊平臺,Hadoop就是一個。


Hadoop被設計成了可以支援“敏捷”資料分析。在軟體開發領域,“敏捷實踐”是與快速產品開發週期、開發者和使用者的更緊密的互動、並與測試相關的。傳統的資料分析已經被異常長的執行時間所耽擱,一個計算可能在幾小時或者幾天內都無法完成。但是Hadoop(特別是Elastic MapReduce)讓構建一個可以處理超大資料集的叢集成為可能。快速的計算使得測試不同的假設、不同的資料集和不同的演演算法成為可能。這就讓跟客戶的溝通變的容易了,因為可以快速的發現你是否問了正確的問題。同時也讓探索那些有趣的可能性成為可能,而不再受限於分析時間了。


Hadoop本質上是一個批處理系統,但是Hadoop線上原型(HOP,Hadoop Online Prototype)是一個實驗專案,來應對流計算。HOP在資料到來的時候就處理資料,並以準實時的速度算出中間結果。準實時資料分析可以應用在推特的話題趨勢追蹤這樣的應用裡。這樣的應用只要求近似實時,比如話題趨勢追蹤的報表不會需要毫米級的準確度。像推特上的關註者的數目一樣,一個“話題趨勢”報表也只需要能在五分鐘內更新即可,甚至是一小時內。據bit.ly的資料科學家希拉里.梅森(Hillary Mason)所說,也可以先計算很多的變數值,再使用實時MapReduce來計算最近的結果。


機器學習是資料科學家的另外一種重要的工具。我們現在期待網路和移動應用會結合推薦引擎。而構建一個推薦引擎是人工智慧問題的精華之一。不用看很多的網頁應用,你就能發現分類、錯誤檢測、影象匹配(如在谷歌眼鏡和SnapTell裡)甚至是人臉識別。一個不動腦子的移動應用可以讓你用手機來給某人拍照,然後在用這張照片來在搜尋這個人的身份。吳恩達(Andrew Ng)的機器學習課程是斯坦福大學的最流行的計算機課程之一,有著數百名學生(他的這個影片也是強烈推薦的)。


有很多機器學習的庫可供使用:Python的PyBrain,Elefant,Java的Weka和Hadoop裡的Mahout。谷歌最近剛剛釋出他們的預測性分析的API,透過RESTful介面為大眾提供了谷歌的機器學習演演算法的能力。對於計算機視覺,OpenCV則是事實上的標準。


Mechanical Turk也是工具庫裡的一個重要部分。機器學習幾乎總是需要一個“訓練集”,即已知結果的資料,供開發和調優應用。Turk就是一個很好的方法來獲得訓練集。一旦你得到了資料集(可能就是從推特裡收集的很多公共圖片),你可以用很少的花費來進行人工分類,比如分到不同的串列裡,在臉上或者車上畫個圈,或者任何你感興趣的結果。花費幾分錢來分類幾千條記錄是個不錯的選擇。即使是相對大的工作,也只花費不到幾百美元。


儘管我沒有強調傳統的統計分析,但構建統計模型在任何資料分析裡都很重要。據麥克.德裡斯科爾(Mike Driscoll),統計是“資料科學的語法”。讓資料能一致性的講故事是很重要的。我們都聽說了這個笑話,吃泡菜會死人,因為每個死的人都吃過泡菜。如果你理解關聯的意思,你就不會去理會這個笑話。更進一步,很容易可以看到為《R技術手冊》做廣告使得這本書的銷量的轉化率比其他書多2%。但需要用統計的結果來判斷這個差別是不是夠顯著,或只是一個隨機的波動。資料科學不僅僅只是關於資料的儲存,或猜測資料可能的意義,它是關於假定檢驗和確保來自資料的結論是可信的和可靠的。從傳統的商業智慧到理解谷歌的拍賣機制,統計在幾乎所有的任務裡都扮演重要的角色。統計已經成為了一個基本技能。它不是被來自機器學習裡的新技術所替代,它是他們的補充。


儘管有很多的商業化統計軟體包,但開源的R語言,包括他的豐富的包庫CRAN,是非常重要的一個工具。雖然對學計算機的人而言,R是一種奇怪的詭異的語言,但它幾乎是提供了一站式的統計工具包。它包括了非常好的圖形處理工具,CRAN裡包括了非常多的資料解析器,以及針對分散式計算的新的擴充套件包。如果有一個工具能提供端到端的統計解決方案,R就是。

讓資料來講它自己的故事

一圖或許值千言,或許不值,但一圖絕對值千數。很多資料分析演演算法的問題都是他們僅僅只是產生了一堆數字。為了理解這些數字的意思(它們要說的真實故事),你需要製作好的圖表。愛德華.塔夫特(Edward Tufte)的《量化資訊的視覺化顯示》就是資料視覺化的經典書籍,也是任何希望從事資料科學的人要看的基礎教材。據馬丁.瓦滕伯格(Martin Wattenberg,Flowing Media的創始人),視覺化對資料調節很重要,如果你想發現資料的質量如何,那就把它畫出來。視覺化也經常是是資料分析的第一步。希拉里.梅森說當她拿到新的資料後,她會首先畫很多的散點圖,試圖去找到那些有趣的東西。一旦你發現某些資料有價值的線索,就可以繼續用更詳細的分析來繼續了。


有很多軟體和工具可以用來製作圖表展現資料。GnuPlot是非常有效的一個。R也有很豐富的圖表庫;凱西.瑞斯和本.弗萊的Processing是最先進的一個,特別是如果你想製作可隨時間變化的動畫。IBM的Many Eyes裡的很多視覺化都是完全可以互動的應用。


內森.姚(Nathan Yau)的FlowingData部落格是一個很好的地方可以來學習製作視覺化。我最喜歡的動畫之一是沃爾瑪的成長。它裡面不僅僅是視覺化自己的美學,還有藝術的部分,可以幫助理解資料。它看起來像是身體裡的癌症在擴散嗎?或是流感在人群裡的爆發傳播?讓資料來說它自己的故事不僅僅是展現結果,它還包括製作連線,連到其他的資料源來證實這些結果。一個成功的零售連鎖店的發展和一個傳染病的發展類似嗎?如果是這樣,這是不是給了我們一個新的洞察,理解經濟是如何發展的?這個問題我們幾年前甚至都不能問。因為沒有足夠的計算能力,而資料則各自被鎖定在各自的環境裡,同時能處理這些資料的工具也不成熟。現在類似這樣的問題每天都被問出來。

資料科學家

資料科學要求很多技能,從傳統的電腦科學、數學到藝術。傑夫.哈默巴赫爾在描述他在臉書組建的資料科學團隊(可能也是面向消費者的網站裡的第一個資料科學團隊)時說:


在某一天,團隊的成員可以在Python裡寫出多個階段的資料處理管道,設計一個假設檢驗的測試,用R來對資料樣本所回歸分析,為一些資料密集型的產品和服務在Hadoop上設計和實現一種演演算法。或是就我們分析的結果和其他的成員或部門進行溝通。


哪裡去找到這些多才多藝的人哪?按領英的首席科學家DJ.帕蒂爾(DJ Patil)的說法,最好的資料科學家應該是“理科科學家”,特別是物理學家,而不是計算機專業的人員。物理學家一般有很好的數學背景、計算機技能,同時物理學也是一個非常依賴從資料裡獲得發現的學科。他們必須思考大畫面,大問題。如果你花費了很多的科學基金來獲取資料,即使資料沒有想要的那麼清晰,你也不會隨意丟棄。你必須要想辦法來讓資料講故事。當資料講的故事不是你所想要它講的時候,你就需要一些創造性。


科學家也需要知道如何把大問題分解成一些小一點的問題。帕蒂爾描述了在領英建立一些推薦特性的過程。這種任務可能很容易變成一個高光的開發專案,花費幾千個人天的開發時間加上幾千小時的計算時間來發現領英成員的相互間的關聯關係。但是帕蒂爾他們的工作過程卻很不一樣。他們從一個相對小的專案開始,簡單地程式設計來檢視成員的畫像並做相應的推薦。問諸如你上過康奈爾大學嗎這樣的問題,就可以幫助推薦是否成員需要加入康奈爾校友會。然後就可以逐漸地擴展出去。除了檢視使用者的畫像,領英的資料科學家開始檢視會員參加過的活動,隨後是他們參加的圖書館的讀書俱樂部。結果就產生了一個能分析海量資料的有價值的資料產品,但它最初也不是按這個思路設計的。這是一個敏捷地、靈活地過程,逐漸地實現最終的標的,而不是一開始就直接去爬高山。


這就是帕蒂爾所說的“資料柔道”的核心思想。即用一些附帶的小問題來解決那些看起來無法解決的大的困難的難題。CDDB就是一個資料柔道的很好的例子,直接分析歌曲音軌來識別音樂是非常難的(儘管不是不可能,例如midomi)。但CDDB的員工創造性地用更好追蹤的方法解決了這個問題。基於音軌的長度來計算一個音軌的簽名,然後在資料庫裡搜尋這個簽名,非常簡單直接!

 



並不容易來發現資料科學工作的指標。但是來自O’Reilly研究的資料顯示了一個穩定Hadoop和Cassandra招聘公告的逐年增長。這可以算是對“資料科學”總體市場的一個好的表徵。本圖顯示了Cassandra招聘數量的增長和排列Cassandra職位的公司的數量。


創業精神是整個問題的另外重要一塊。帕蒂爾對問題“當你準備招聘一個資料科學家的時候,什麼樣的人你會找?”時的第一反應是“那些你想跟著一起創業的人”。這是一個重要的洞察:我們進入了一個構建於資料上的產品的時代。我們還不知道這些產品是什麼,但是我們知道勝出者會是那些能發現這些產品的企業和個人。希拉里.梅森也給出了同樣的結論。她作為bit.ly的資料科學家的主要工作就是研究bit.ly所產生的資料,並從中發現如何構建有趣的產品。在尚不成熟的資料行業,沒有人試圖去製造2012的尼桑Stanza或者Office 2015,相反的,這個行業的從業者都在儘力去發現新產品。除了是物理學家、數學家、程式員和藝術家,他們還是創業者。


資料科學家把創業精神和耐心、願意逐步地製造資料產品的意願、探索的能力和能就一個解決方案進行反覆迭代的能力結合起來。他們是天生的交叉學科。他們能從所有方面來探索問題,從最初的資料收集、資料調節到得出結論。他們能創造性的找到新的方法來解決問題,同時去回答一個非常寬泛定義的問題:“這裡有很多很多的資料,你能從中找到什麼?”


未來屬於那些能知道如何成功收集和使用資料的企業。谷歌、亞馬遜、臉書和領英都已經在利用他們的資料流並形成了他們的核心業務,且獲得了成功。他們是先鋒,但更新的企業(像bit.ly)正在追隨著他們的腳步。無論是挖掘你個人的生物群落,還是從幾百萬旅遊者分享的經驗裡繪製地圖,或者研究人們分享給別人的URL,新一代的生意將會是依靠資料來成功。哈爾.瓦里安的採訪裡有一段可能沒人能記住的取用:


這個能拿到資料的能力—能理解資料、處理資料、從中抽取價值、視覺化資料並能和別人交流結果—將會是下一個十年裡極度重要的技能。

【完】


萬門大學限時免費課程推薦 

美國著名電商資料科學家與AI老司機親授課程

掃碼後按步驟操作領取課程

贊(0)

分享創造快樂