歡迎光臨
每天分享高質量文章

乾貨 :送你12個關於資料科學學習的關鍵提示(附鏈接)

來源:Artinspiring/Dreamstime.com

翻譯:國相潔;校對:丁楠雅

本文3000字,建議閱讀6分鐘

本文為你介紹了作為資料科學家需要掌握溝通能力和其它軟技能方面知識。

小結: 資料科學家需要強大的數學和編碼能力,但溝通能力和其它軟技能也是走向成功不可缺少的基本功。

根據Glassdoor在美國區的統計,“資料科學家”排名為2019年最誘人的工作。平均基礎工資為$108k,工作滿意度為4.3–5★,加上被預測有大量空缺,這個結果一點都不令人吃驚。

問題是,一個人該如何修煉才能走上正軌並獲得勝任這份工作的資格?

為了找到答案,我們總結了大量文章里的建議,很多可以歸納為編碼與數學上的硬技能(hard skills)。但強大的計算能力並不是全部。一名優秀的資料科學家仍需要和相關業務人員進行有效溝通,這裡便需要一些軟技能(soft skills)。

鑄造你的教育地基:3個要點

Drace Zhan作為 NYC Data Science Academy 的資料科學家,強調了教育基礎的必要性,包括編碼基礎和數學能力:

NYC Data Science Academy:

 https://nycdatascience.com/

  • R/Python + SQL。如果你沒有編碼能力,那你就需要大量的網絡等其它領域的力量來補充這個缺陷。我見到過一些資料科學家,有的數學能力比較薄弱,或者對相關領域欠缺經驗,但他們總有很強的編碼能力。Python是很理想,R正在變得有點落後,最好兩樣武器都帶上。SQL對於資料分析師來說同樣極其重要。

R/Python + SQL:

https://www.techopedia.com/definition/3533/python

  • 強大的數學能力。對一些常用的理論有著較好的理解:generalized linear models(廣義線性模型),decision tree(決策樹),K-means(聚類分析)和statistical tests(假設檢驗)。這好過手握大量模型甚至專業模型如遞迴神經網絡(RNN),卻僅僅是淺嘗輒止。

decision tree:

https://www.techopedia.com/definition/28634/decision-tree

K-means:

https://www.techopedia.com/definition/32057/k-means-clustering

這些都是需要培養的核心技能,儘管一些專家還加入了其它東西。例如,一份 KDnuggests 清單包含了編碼成分,Zhan在此基礎上還加入了一些其他有用的東西,包括Hadoop平臺,Apache Spark,資料可視化,非結構化資料,機器學習和AI。

Apache Spark

https://www.techopedia.com/definition/30113/apache-spark

但如果我們從一份Kaggle調研中尋求線索,關於“那些在實際生活中被使用的最普遍的工具”,我們會有不同的發現。下麵這張圖是名列前15的硬技能。

Python,R和SQL排在前三,第四名是 Jupyter notebooks,接下來是 TensorFlow,Amazon Web Services,Unix shell,Tableau,C/C++,NoSQL,MATLAB/Octave和Java,都排在Hadoop和Spark前面。頗讓人意外的是,Microsoft’s Excel Data Mining也被列進來了。

TensorFlow:

https://www.techopedia.com/definition/32862/tensorflow

Amazon Web Services:

https://www.techopedia.com/definition/26426/amazon-web-services-aws

Unix:

https://www.techopedia.com/definition/4637/unix

C++:

https://www.techopedia.com/definition/26184/c-programming-language

NoSQL:

https://www.techopedia.com/definition/27689/nosql-database

Java:

https://www.techopedia.com/definition/3927/java

圖片出自 Kaggle 

https://www.kaggle.com/surveys/2017

在KDnuggests清單中也包括了關於正規教育的建議。大多資料科學家都擁有高學歷,46%是博士,88%的人擁有至少碩士學位。他們的本科學位通常是相關領域。大約1/3是數學和統計學,這也是最受歡迎的職業軌跡。接下來最受歡迎的是計算機科學學位,占有19%,工程學16%。當然專門針對資料科學的技術工具通常不會設在大學課程中,但是可以通過專門的訓練營或在線課程習得。

課程之外:2個要點

Hank Yun是威爾康奈爾醫學院肺科的一名助理研究員,同時也是NYC資料科學學院的學生。他建議有抱負的資料科學家圍繞他們將要從事的工作進行計劃,並找到一位導師。

Hank Yun

https://medium.com/@jhaseon

他說:“不要犯我曾經犯過的錯誤。那時我對自己說,我知道資料科學,因為我參加了課程並獲得了證書。”這確實是個不錯的開始,但當你開始學的時候,腦海中要有一個計劃。然後在該領域中找到一名導師,並立刻開始一個令你充滿激情的專案。

當你還是個新手,你不知道你不知道什麼。所以如果有個人指導你前行,告訴你,什麼是對於現在的你最重要的,什麼不是,這將很有幫助。別把時間扔在學習那些最後根本無法施展的東西!

知道從你的工具包里取出哪樣工具:保持領先的要點 

由於資料科學工具的排名不盡相同,有人可能會困惑,到底該把精力集中在哪些上面。Celeste Fralick是McAfee軟體安全公司的首席資料科學家。他在CIO article上強調了這個問題:“一名資料科學家需要處在調查曲線的前端,但別忘了去明白,什麼技術該什麼時候用。” 這句話意思是,別被新鮮與性感的外表蠱惑,而實際問題需要更多工作。意識到對於生態系統的計算成本,可解釋性,延遲,帶寬,和其它系統邊界條件,還有客戶的到期時間,它本身就能幫助資料科學家知道,使用什麼技術最合適。 

CIO article:

https://www.cio.com/article/3263790/data-science/the-essential-skills-and-traits-of-an-expert-data-scientist.html

基本軟技能:另外6個要點

Fralick提到了資料科學工作需要的非技術性技能。這也是為什麼KDnuggests清單包括了這4項:求知欲,團隊合作,溝通技巧和商業頭腦。Zhan給列出的清單中也包含了一些關鍵的軟技能,如 “有效溝通能力”,“領域經驗” 與上面的 “商業頭腦” 類似。總之,都是指將資料科學實際應用到商業中。

Olivia Parr-Rud提供了她自己的想法,又加入了另外2項軟技能:創新,勇於堅持。她說:“我認為資料科學是科學也是藝術。它需要利用大腦兩側的力量。很多人談及資料科學,說它主要使用左腦。但我發現,想要成功,資料科學家就得充分呼叫他們的全腦。”

她解釋道,在該領域前行,不僅需要技術能力,還要有創造性和領導性遠見。

大多數左腦/線性任務可以被自動化或外包。為了提供身為一名資料科學家的競爭優勢,我們必須能識別大量信息中的樣式(patterns)和綜合性(synthesize),也就要用到左右腦。我們必須是有創造力的思考者。很多優秀的結論都是來自於左右腦的協同工作。 

她還強調為什麼清晰地表達遠見是基本的:

“作為資料科學家,我們的標的是幫助客戶增長利潤。大多數主管不理解我們是做什麼的,我們是如何去做的。所以我們需要像領導者一樣去思考,以股東們可以理解和信任的方式,表達我們的發現與建議。”

總結

這個提示單里包含大量地技術工具,技能,和能力,還有可量化的品質,像創造力,領導力。資料科學不僅僅是個數字游戲。資料科學家也不是在虛空中建模,而是要能提出實用的,能解決商業中實際問題的灼見。那些可以在該領域中獲得成功的人,不僅僅精通技術,還能理解工作中團隊各成員的需求。

 

譯者簡介:國相潔,馬德里自治大學本科,經濟與金融專業。從資料分析師起步,夢想成為一名優秀的資料科學家。希望在成長的路上,結交志趣相投的朋友,不負青春。

    赞(0)

    分享創造快樂