歡迎光臨
每天分享高質量文章

超級乾貨 :2018資料科學以及機器學習領域頂級工具的排名與趨勢

2018資料分析、資料科學以及機器學習領域頂級工具的排名與趨勢

Python 侵佔 R,

RapidMiner激增,

SQL相對穩定,

Tensorflow排名上升且拉動了Keras,

Hadoop下降,

資料科學平臺開始進入整合階段…

第19屆KDnuggets軟體年度調查活動中,超過2300名選民參與了投票環節,比2017年少了一些,可能是因為只有一家供應商(RapidMiner)在KDnuggets投票中進行了非常活躍的投票活動。平均而言,參與者大約選擇了7種不同的工具,因此只選擇了一種工具的選票就凸顯出來。 本文排除了大約260個這樣的”單票(lone votes)”(主要來自RapidMiner),因為即使他們可以代表使用該工具的使用者,他們的經歷也非常不典型,並且會導致結果的不一致。為了更好地進行比較,本文還從2016年和2017年的資料中刪除了這些單票(2017年約為11%,2016年為12%)。因此,本文所涉及的多數工具的投票比例將會略高於在2017年報道過的比例。本文已排除了”單票”現象,並根據2052名參與者的資料所進行了初步分析,更詳細的關聯分析和匿名資料分析即將釋出。


圖1  KDnuggets分析/資料科學領域2018年軟體調查:2018年主要工具排名及其在2016 – 2017年度民意調查中的使用率(share of usage)(註:為了便於對比分析,重新計算了2016年,2017年投票的結果以排除”單票(”lone” votes)”)


表1 排名資料


       在表1中,2018 % share 是使用該工具的選民的百分比,% change是與2017年軟體調查相比百分比的變化,綠色和紅色突出顯示10%或更多的變化。每名受訪者的平均工具投票數量為7.0,略高於2017年投票中的6.75(不包括單一工具投票)。與2017年軟體投票相比,出現了一個新的軟體是Keras。 Knime掉出前11名,可能是因為今年他們的使用者沒有參與投票活動。


1
Python侵佔R(Python eats away at R)

     截至2017年,Python已經擁有超過50%的使用率,並將其使用率提高到66%,而自從我們的調查完成之後,R的使用率開始下降,並下降到了50%以下。


2
RapidMiner使用率激增                           

     在過去的幾輪調查中,RapidMiner是最重要的資料科學平臺,它的使用率從2017年的33%大幅增加到50%左右。這其中哪個部分是由於使用者增長導致的,哪個部分是由於供應商推廣導致的?我問過RapidMiner做了什麼來鼓勵他們的使用者,RapidMiner創始人兼總裁Ingo Mierswa的如是回應:“與許多供應商一樣,RapidMiner透過多種渠道向用戶推廣KDnuggets調查,其中包括向過去12個月內使用過我們產品的使用者發送了幾封電子郵件,之前我們做過同樣的推廣,但今年的情況有所不同。首先,今年我們得到了更好的回應,超過400位使用者親自回覆我們的電子郵件,因為我們的幫助,他們感到非常高興,但更重要的是,我們看到過去一年每月活躍的RapidMiner使用者增長了300% ,所以我們比以前更多地向用戶傳送電子郵件,我們很高興有這樣一個忠誠的使用者社群。”需要指出的是,我註意到RapidMiner不是KDnuggets上的當前廣告商。


3
SQL相對穩定                                           

      SQL,包括Spark SQL,SQL to Hadoop工具在內,SQL在最近的3次調查中仍然佔有約40%的使用率。 所以,如果你是一位有抱負的資料科學家,學習SQL–它可能會在很長一段時間內很有用。


4
主要趨勢                                                

     在調查中,使用率超過2%的唯一新條目是Spark SQL,擁有11.7%的使用率。下表列出了2018年使用率增長20%或以上,並且至少達到3%的工具。


表2 使用率增加最多的資料分析/資料科學/ ML工具


5
資料科學平臺開始進入整合階段


     我們註意到2017年有56個工具在2017年擁有2%或更高的使用率,但在2018年只有19個工具的(僅約三分之一)使用率有所增加,而有37份工具的使用率下降。 這與最近的收購(Datawatch收購Angoss,Minitab收購Salford)均表明資料科學平臺的整合即將展開。

表3 使用率下降幅度最明顯的主要資料分析/資料科學工具


6
深度學習工具                               

     使用深度學習工具的選民比例保持穩定,為33%,2017年為32%,2016年為18%。谷歌Tensorflow是迄今為止最主要的平臺,但Keras的出現使其成為了Tensorflow上非常受歡迎的封裝。

深度學習工具排名是:

  • Tensorflow, 29.9%

  • Keras, 22.2%

  • PyTorch, 6.4%

  • Theano, 4.9%

  • Other Deep Learning Tools, 4.9%

  • DeepLearning4J, 3.4%

  • Microsoft Cognitive Toolkit (Prev. CNTK), 3.0%

  • Apache MXnet, 1.5%

  • Caffe, 1.5%

  • Caffe2, 1.2%

  • TFLearn, 1.1%

  • Torch, 1.0%

  • Lasagne, 0.3%


7
大資料工具:Hadoop Drops

     2018年,約33%的人使用Hadoop或Spark等大資料工具 – 與2017年大致相同,但Hadoop使用率顯著下降約30%。



8
程式語言                           

     Python似乎不僅超越了R,還超越了其他大多數語言,除了SQL,Java和C / C ++之外,它們保持在大致相同的水平。自從我們開展這項調查以來,R的排名已經開始下降。其他語言也有所下降,以下是按受歡迎程度排序的主要程式語言。

  • Python,65.6%(2017年為59.0%),上升11%

  • R,48.5%(56.6%),下跌14%

  • SQL,39.6%(39.2%),1%以上

  • Java,15.1%(15.5%),下跌3%

  • Unix,shell / awk / gawk,9.2%(10.8%),15%下降

  • 其他程式設計和資料語言,6.9%(7.6%),-9%下降

  • C / C ++,6.8%,(7.1%),下跌3%

  • 斯卡拉,5.9%,(8.3%),29%下降

  • Perl,1.0%(1.9%),下降46%

  • 朱莉婭0.7%(1.2%),下降45%

  • Lisp,0.3%(為0.4%),下跌25%

  • Clojure,0.2%(0.3%),-38%下跌

  • F,#0.1%(為0.5%),下跌-73%


   近3年各地區的參與情況如下:

  • 歐洲:37.5%

  • 美國/加拿大:36.6%

  • 亞洲:11.7%

  • 拉丁美洲:6.6%

  • 非洲/中東:4.5%

  • 澳大利亞/紐西蘭:3.1%

    與2017年相比,主要變化是來自歐洲的參與率升高(從35.5%上升),而來自美國/加拿大的參與率則從41.5%下降。


9
調查詳細結果            


10
歷屆民調原文

歷屆資料分析,資料挖掘,資料科學軟體的KDnuggets民意調查的結果及其原文連結如下:

  • New Leader, Trends, and Surprises in Analytics, Data Science, Machine Learning Software Poll, 2017

  • R, Python Duel As Top Analytics, Data Science software, 2016

  •  R leads RapidMiner, Python catches up, Big Data tools grow, Spark ignites, 2015

  •   RapidMiner Continues To Lead, 2014

  • RapidMiner and R vie for first place, 2013

  •   KDnuggets 2012 Poll: Analytics, Data mining, Big Data software used

  •  KDnuggets 2011 Poll: Data Mining/Analytic Tools Used

  • KDnuggets 2010 Poll: Data Mining / Analytic Tools Used

  •  KDnuggets 2009 Poll: Data Mining Tools Used

  •  KDnuggets 2008 Poll: Data Mining Software Used

  •  KDnuggets 2007 Poll: Data Mining/Analytics Software Tools

備註: 1.本文原作者為Gregory Piatetsky,原文標題《Python eats away at R: Top Software for Analytics, Data Science, Machine Learning in 2018: Trends and Analysis》,原文URLhttps://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html。

2.由王雨晴、朝樂門負責翻譯、校對、編輯和釋出。

本文轉自:資料科學DataScience 已獲授權;

END

版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。


關聯閱讀:

原創系列文章:

1:從0開始搭建自己的資料運營指標體系(概括篇)

2 :從0開始搭建自己的資料運營指標體系(定位篇)

3 :從0開始搭建自己的資料運營體系(業務理解篇)

4 :資料指標的構建流程與邏輯

5 :系列 :從資料指標到資料運營指標體系

6:   實戰 :為自己的公號搭建一個資料運營指標體系

7:  從0開始搭建自己的資料運營指標體系(運營活動分析)

資料運營 關聯文章閱讀:  

運營入門,從0到1搭建資料分析知識體系    

推薦 :資料分析師與運營協作的9個好習慣

乾貨 :手把手教你搭建資料化使用者運營體系

推薦 :最用心的運營資料指標解讀

乾貨 : 如何構建資料運營指標體系

從零開始,構建資料化運營體系

乾貨 :解讀產品、運營和資料三個基友關係

乾貨 :從0到1搭建資料運營體系

資料分析、資料產品 關聯文章閱讀:

乾貨 :資料分析團隊的搭建和思考

關於使用者畫像那些事,看這一文章就夠了

資料分析師必需具備的10種分析思維。

如何構建大資料層級體系,看這一文章就夠了

乾貨 : 聚焦於使用者行為分析的資料產品

如何構建大資料層級體系,看這一文章就夠了

80%的運營註定了打雜?因為你沒有搭建出一套有效的使用者運營體系

從底層到應用,那些資料人的必備技能

讀懂使用者運營體系:使用者分層和分群

做運營必須掌握的資料分析思維,你還敢說不會做資料分析

贊(0)

分享創造快樂