歡迎光臨
每天分享高質量文章

從全方位為你比較3種資料科學工具的比較:Python、R和SAS(附鏈接)

翻譯:張玲 校對:吳金笛

 

本文3000字,建議閱讀5分鐘

關於三種資料科學工具Python、R和SAS,本文從8個角度進行比較分析併在文末提供記分卡,以便你隨時調整權重,快速做出選擇。

簡介

我們喜歡比較!

從比較三星、蘋果、HTC的智慧手機,iOS、Android、Windows的移動操作系統到比較即將選舉的選舉候選人,或者選擇世界杯隊長,比較和討論豐富了我們的生活。如果你喜歡討論,你所要的就是在一個充滿激情的群體中丟擲一個相關問題,然後看著它爆炸式地發展!這個過程的美妙之處在於,社區里的每個人都是一個知識淵博的人。

我在這裡也引發類似的討論,比較SAS、R和Python。SAS和R孰好孰壞可能是資料科學領域的最大爭論,而Python是目前發展最快的語言之一,自其誕生以來,已經走過很長的路。我開始這個討論的原因並不是想看它爆炸(不過那也很有趣),而是知道我們都會從討論中受益。

這也是我在這個博客上最常見的問題之一,所以我會和所有的讀者、訪客一起討論這個問題。

SAS

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-business-analyst-sas/

R

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/

資料科學領域

https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2?utm_source=blog&utm;_medium=PythonvRvSASarticle

Python

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-Python/

關於這個話題不是已經說了很多了嗎?

可能是的,但我仍然覺得有必要談論,原因如下:

  • 資料科學行業是一個充滿活力的行業,兩年前進行的任何比較都有可能和資料科學不再相關。

  • 傳統上,Python不在比較範圍內,但現在我認為這不僅僅是一個值得考慮的問題。

  • 在我即將討論語言全球趨勢的同時,我將添加有關印度分析行業(處於不同發展水平)的特定信息。

所以,不要再拖延了,讓討論開始吧!

背景

以下是對3種資料科學工具的簡要描述:

  • SAS:毋庸置疑,SAS一直是商業分析領域的市場領導者。該軟體提供了大量的統計功能,具有良好的圖形用戶界面(Enterprise Guide&Miner;),便於人們快速學習,並提供出色的技術支持。然而,最終它成為最昂貴的選擇,還不具備豐富的最新統計功能。

  • R:R是SAS的開源版本,傳統上用於學術和研究。由於其開源特性,最新的統計功能很快就會發佈,而且互聯網上有很多學習文件,R是一個非常划算的選擇。

  • Python:Python作為一種開源語言,它的使用與日俱增。如今,它的擴展程式庫(numpy、scipy和matplotlib)和功能幾乎可以用於您可能想要進行的任何統計操作/模型構建。自從引入panda後,它在結構化資料操作方面變得非常強大。

比較屬性(比較角度)

我將在以下8個屬性上比較這些語言:

1. 可用性/成本

2. 易學性

3. 資料處理能力

4. 圖形功能

5. 工具進展

6. 工作情形

7. 深度學習支持

8. 客戶服務支持和社區

我從分析師的角度比較這些,所以,如果你想為公司購買一個工具,你可能無法在這裡得到完整的答案,但下麵的信息仍然有用。對這三種工具,我就每個比較屬性進行評分(1–低;5–高)。

這些比較屬性的權重取決於你從事的職業和抱負。

1.可用性/成本

SAS是一種商業軟體,很昂貴,對於大多數專業人員(以個人身份)來說仍然遙不可及。然而,它在私營機構中占有最高的市場份額。因此,除非您所在的組織購買了SAS,否則可能很難接觸它。雖然,SAS提供了一個免費的大學版本,可以使用Jupyter筆記本,但它仍有一些限制!

另一方面,R&Python;是完全免費的。以下是我在這個引數上的評分:

SAS – 3

R – 5

Python – 5

2.易學性

SAS很容易學習,並且為已經瞭解SQL的人提供了簡單的選項(PROC

-SQL)。即使不這樣,它的知識庫中也有一個很好的、穩定的圖形用戶界面。在資源方面,各個大學的網站上都有教程,SAS有一個全面的文件。有來自SAS培訓機構的認證,但需要花錢才能獲得。

在這裡列出的3種工具中,R的學習曲線最陡,因為需要你學習和理解編碼。R是一種低級編程語言,因此簡單的過程可能需要較長的代碼。

SQL 

https://www.analyticsvidhya.com/blog/2015/03/basics-sql-rdbms/

proc-sql 

https://www.analyticsvidhya.com/blog/2015/04/data-exploration-sas-data-step-proc-sql/

Python在編程領域以其簡單性而聞名,這對於資料分析也是如此。雖然到目前為止還沒有廣泛使用的圖形界面,但我希望Python notebooks會越來越成為主流,這會為文件和共享提供了很棒的功能。

SAS – 4.5

R – 2.5

Python – 3.5

3.資料處理能力

在過去,這一直是SAS的優勢。R在記憶體(RAM)中進行所有的計算,因此計算受到32位機器上RAM數量的限制,但情況不再是這樣了。這三種工具都具有良好的資料處理能力和並行計算選項,我覺得這不再是一個很大的區別。他們都可以集成Hadoop和Spark集成,同時也支持Cloudera和ApachePig。

SAS – 4

R – 4

Python – 4

4.圖形功能

SAS具有良好的功能圖形功能,然而,只是功能性的。任何對繪圖的自定義都是困難的,需要你理解複雜的SAS圖形(程式擴展)包。

R和Python都具有非常高級的圖形功能,有許多軟體(程式擴展)包將為您提供高級圖形功能。

現在,隨著這兩種工具都引入plotly並且Python引入了Seaborn,自定義繪圖變得前所未有的簡單。

SAS – 3

R – 4.5

Python – 4.5

5.工具進展

這3個工具都具有最基本基本和最需要的所有功能,只有在研究最新的技術和演算法時,這個特性才重要。

由於其開放性,R&Python;可以快速獲得最新特性,而SAS在新版本的推出中更新了其功能。由於R在學術界廣泛應用,因此新功能的發展很快。

儘管如此,SAS在受控環境中發佈更新,因此它們經過了很好的測試。另一方面,R&Python;是開放的,在最新功能的開發中有出錯的可能。

SAS – 4

R – 4.5

Python – 4.5

6.工作情形

在全球範圍內,SAS仍然是市場領導者,大多數大型組織仍然在SAS上工作。另一方面,R/Python對於初創企業和尋求成本效益的公司來說是更好的選擇。此外,據報告,在過去幾年裡,R/Python相關的工作數量有所增加。這是一個在互聯網上廣泛發佈的趨勢,顯示了R和SAS工作數量的趨勢。用於資料分析的Python工作與R工作具有類似或更高的趨勢:

在下圖中,藍色代表R,橙色代表SAS。

在下圖中,藍色代表R,橙色代表Python。

資料科學工作中使用的工具分佈情況如下:

SAS – 4

R – 4.5

Python – 4.5

7.客戶服務支持與社區

R和Python擁有最大的在線社區,但沒有客戶服務支持。所以,如果你有麻煩,你就靠自己了。不過,你會得到很多幫助的。

SAS提供了專門的客戶服務社區。因此,如果你在安裝方面遇到問題或任何其他技術挑戰,你可以聯繫他們。

SAS – 4

R – 3.5

Python – 3.5

8.深度學習支持

SAS的深度學習仍處於起步階段,還有很多工作要做。

Python在該領域有著巨大的進步,它有許多(程式擴展)包,如tensorflow和keras。

R最近增加了對這些包以及一些基本包的支持。R中的kerasR和keras包充當Python包keras的接口。

SAS – 2

Python – 4.5

R – 3

其他因素:

以下是一些值得註意的要點:

  • Python廣泛應用在Web開發中,如果你從事在線業務,使用Python可以同時進行Web開發和分析。

  • SAS過去在部署端到端基礎架構(可視化分析、資料倉庫、資料質量、報告和分析)方面具有很大優勢,但現在可以通過在SAP HANA和Tableau等平臺上集成/支持R,這種優勢已不再明顯。儘管它距離SAS這樣的無縫集成還有很遠的距離,但這段旅程已經開始。

結論

在今天的情況下,我們看到市場對Python略有傾斜。考慮到行業的動態性,押註什麼即將占據上風,時機尚未成熟。根據你的情況(職業階段、財務狀況等),你可以增加你自己的權重,並想出可能適合你的方案。以下是一些特定的場景:

  • 如果你是一個剛進入分析行業的人(特別是在印度),我建議你學習SAS作為你的第一語言。學習容易,就業市場占有率最高。

  • 如果你是一個已經在這個行業中一段時間的人,你應該嘗試學習一個新工具來多樣化你的專業知識。

  • 對於業內的專家和專業人士,人們至少應該知道其中的兩個,這將為未來增加許多靈活性,並打開新的機會。

  • 如果您是初創企業/自由職業者,R/Python更有用。

從戰略上講,具備更多實際操作幫助和培訓的企業機構可以選擇SAS作為選項。

研究人員和統計學家選擇R作為替代方案,因為它有助於進行大量的計算。正如他們所說,R是為了完成工作,而不是為了讓你的電腦更輕鬆。

由於其輕量級的特性和不斷增長的社區,Python明顯已經成為當今初創企業的選擇,這也是深度學習的最佳選擇。

下麵是最後的記分卡:

以上是我對這一比較的看法。現在輪到你通過下麵的評論來分享你的觀點了。

原文標題:

Python vs. R (vs. SAS) – which tool should I learn?

原文鏈接:

https://www.analyticsvidhya.com/blog/2017/09/sas-vs-vs-Python-tool-learn/

譯者簡介:張玲,在崗資料分析師,計算機碩士畢業。從事資料工作,需要重塑自我的勇氣,也需要終生學習的毅力。但我依舊熱愛它的嚴謹,痴迷它的藝術。資料海洋一望無境,資料工作充滿挑戰。

轉自:資料派THU 公眾號;

版權宣告:本號內容部分來自互聯網,轉載請註明原文鏈接和作者,如有侵權或出處有誤請和我們聯繫。

    已同步到看一看
    赞(0)

    分享創造快樂