歡迎光臨
每天分享高質量文章

清理資料成資料科學家最大挑戰

資料分析師花費一半以上的時間清理和轉換資料,而不是從中提取商業智慧,這並不稀奇。資料儲存的規模不斷增大,資料型別也在激增。新一代的工具蜂擁而至,並承諾把複雜的工具送到不依賴資料的科學家的手上。


技術領域最熱門的職位之一是資料科學家,或許只有最新出現的首席高管職位:首席資料科學家能超越他們。顯而易見,人們對這種趨勢一直存在質疑,來自美國科技網站InfoWorld的 Yves de Montcheuil曾取用過一則笑話,資料學家就是住在加利福尼亞州的商業分析師。


每個公司都需要把公司的資料轉換為商業智慧,這並不是什麼有趣的事,這就是資料科學家承擔主導責任的時候。但隨著資料數量和種類的激增,資料科學家發現,他們大部分的時間都花費在清理和轉換資料,而不是分析資料,並把它們告訴給企業經理。


最近,IT專案眾包公司CrowdFlower的資料科學家進行了一項調查(需要註冊可查看)。調查發現,三分之二的分析人員認為清理和組織資料是它們最費時的工作,52%稱他們最大的障礙是資料質量差。受訪者說出了在它們工作中使用的48種不同的技術,最受歡迎的是Excel(55.6%),其次是開源語言研究(43.1%),和Tableau資料可視化軟體(26.1%)。


▲來源:CrowdFlower公司


資料科學家認為它們最大的挑戰是清理資料花費時間,資料質量差,缺少分析時間,以及無效的資料建模。


是什麼抑制了資料分析的發展?被調查的資料科學家列舉出,包括缺少有效滿足他們工作需要的工具(54.3%),組織沒有清楚地說明標的和宗旨(52.3%),以及培訓投資不足(47.7%)。


▲來源:CrowdFlower公司


缺乏工具,標的不明確,不註重培訓被報告為影響資料科學家效率的主要障礙。


承諾將滿足大資料分析師需要的新工具


在技術領域有一個基本的課題:早期只有少數精英需要理解和使用知識、工具,隨著時間的推移,產品日益改進,價格降低,企業適應,技術逐漸成為了主流。新的資料分析工具蜂擁而至,承諾把技術的效益帶給非科研人員。


2014年8月17日,Steve Lohr在紐約時報上刊登了幾種產品的簡介。例如,ClearStory Data公司的軟體結合多個來源的資料,並轉換成圖表、地圖和其他圖形。在資料準備問題上Paxata公司採取了不同方式,他們的軟體通過各種可視化工具對資料進行檢索、清理,和混合用於分析。


這家不以營利為目的的知識開放實驗室,號稱是一個為“公民駭客、資料管理者,以及對技術和資訊結合的可能性產生興趣的普通公民”提供的社區。這個組織正在招募“資料管理員”志願者,來維護核心資料集,例如國內生產總值和ISO代碼。空軍總司令部的Rufus Pollock於2015年1月3日對該專案進行了描述。


▲來源:知識開放實驗室


知識開放實驗室正在尋找志願者程式員,策劃核心資料集並作為零阻力資料計劃的一部分。


沒有比使用Morpheus更簡單和直接的方式來管理異構MySQL、MongoDB、Redis和ElasticSearch資料庫。儀錶板上的一次單擊,Morpheus能使你在混合雲上無縫提供、監控和分析SQL、NoSQL和記憶體資料庫。你創造每個的資料庫實體都包括一個內置的容錯和故障的完整副本集。

譯文鏈接:https://dzone.com/articles/how-to-minimize-data-wrangling-and-maximize-data-i-1

來源:IT168編譯

版權宣告:本號內容部分來自互聯網,轉載請註明原文鏈接和作者,如有侵權或出處有誤請和我們聯繫。

關聯閱讀

原創系列文章:

1:從0開始搭建自己的資料運營指標體系(概括篇)

2 :從0開始搭建自己的資料運營指標體系(定位篇)

3 :從0開始搭建自己的資料運營體系(業務理解篇)

4 :資料指標的構建流程與邏輯

5 :系列 :從資料指標到資料運營指標體系

6:   實戰 :為自己的公號搭建一個資料運營指標體系

7:  從0開始搭建自己的資料運營指標體系(運營活動分析)

資料運營 關聯文章閱讀:  

運營入門,從0到1搭建資料分析知識體系    

推薦 :資料分析師與運營協作的9個好習慣

乾貨 :手把手教你搭建資料化用戶運營體系

推薦 :最用心的運營資料指標解讀

乾貨 : 如何構建資料運營指標體系

從零開始,構建資料化運營體系

乾貨 :解讀產品、運營和資料三個基友關係

乾貨 :從0到1搭建資料運營體系

資料分析、資料產品 關聯文章閱讀:

乾貨 :資料分析團隊的搭建和思考

關於用戶畫像那些事,看這一文章就夠了

資料分析師必需具備的10種分析思維。

如何構建大資料層級體系,看這一文章就夠了

乾貨 : 聚焦於用戶行為分析的資料產品

如何構建大資料層級體系,看這一文章就夠了

80%的運營註定了打雜?因為你沒有搭建出一套有效的用戶運營體系

從底層到應用,那些資料人的必備技能

讀懂用戶運營體系:用戶分層和分群

做運營必須掌握的資料分析思維,你還敢說不會做資料分析

合作請加qq:365242293  


更多相關知識請回覆:“ 月光寶盒 ”;

資料分析(ID : ecshujufenxi )互聯網科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。

赞(0)

分享創造快樂