歡迎光臨
每天分享高質量文章

想成為一名資料科學家?你得先讀讀這篇文章

原文題目:Want to Becomea Data Scientist? Read This Interview First

作者:Kevin Gray;翻譯:韓海疇;校對:閔黎

本文長度為3800字,建議閱讀8分鐘

本文為你解答資料科學究竟是什麼及一個好資料科學家應具備的品質。


市場營銷學者Kevin Gray對肯納索州立大學研究生院副院長、統計學及資料科學教授Jennifer Priestley做了一個採訪,請教資料科學究竟是什麼、一個好資料科學家應具備哪些品質以及如何成為一個好的資料科學家,訪談全文如下。


Q:您能否用簡單、外行人也能聽得懂的話向我們解釋資料科學?


A:我認為Slack的資料工程總監Josh Wills給出的定義非常恰當——“(資料科學家是)擅長統計學的軟體工程師與擅長軟體工程的統計學家的混合體。”,我還想在這裡加上我本人的“Priestly推論”:“(資料科學家是)擅長對資料分析結果進行商業解釋的科學家與擅長資料分析的MBA的混合體”

 

Q:統計學家和資料科學家之間的區別是什麼?


A:這是個好問題。我也經常被問到電腦科學家和資料科學家之間的區別是什麼。事實上這兩個學科也都在探索隱藏在資料中的新內涵。雖然二者都對資料科學這一新生領域作出了令人矚目的貢獻,他們並非完全獨立的。


資料的增長不僅體現在其規模上,還體現在我們對資料這個詞定義的延伸上。舉個例子,文字和影象已成為日益常見的資料形式並被納入分類及風險建模等分析範疇中。對資料定義的延伸迫使統計學和電腦科學從各自的傳統核心領域進入邊緣領域——在這樣的邊緣領域裡,新的思路開始萌發——兩個學科在邊緣領域的融合成為了資料科學的基礎。


統計學的多數傳統核心內容還未做好處理以十億為單位的記錄及非結構化資料的準備。同樣,電腦科學的核心領域雖然擅長高效獲取並儲存大量結構化和非結構化資料,但在透過建模、分類和視覺化等形式將資料轉換成資訊的能力上存在短板。


我同意統計學家在資料科學界容易處於弱勢的說法。我認為這很不幸。幾年前,“簡單統計學”(SimplyStatistics)部落格釋出了一篇名為《為什麼大資料陷入了麻煩:他們忘了運用統計學》的文章。這篇文章指出了人們興衝衝地倒騰機器學習、文字挖掘、神經網路卻忽視與資料行為(behavior of date)密切相關的變數、置信度、分佈等基本統計學概念,導致了糟糕的決定。雖然資料科學不是統計學,但統計學為這門學科貢獻了基礎方法。

 

Q:我們中絕大多數人直到最近幾年才聽說過資料科學。您能否向我們簡要介紹它的歷史?


A:這個詞最早是電腦科學家Peter Naur在1960年提出的觀點,但“資料科學”在統計學中也留下了進化的種子。1962年,John W. Tukey(我們那個年代最為人所熟知和尊敬的統計學家之一)寫到:“在很長一段時間裡,我認為我是一個統計學家,致力於透過特定樣本推斷總體的面貌。但自從我看到了數理統計的進化,我發現我真正感興趣的領域是資料分析……資料分析本質上是一門經驗科學。”


1996年,國際分類學聯合會(IFCS)在第五次大會中首次使用了“資料科學”一詞。大會標題為“資料科學,分類及相關方法”。 1997年,吳建福教授(目前在佐治亞理工學院)在密歇根大學統計系就任H. C. Carver講席教授的公開演講中呼籲將統計學更名為資料科學,統計學家更名為資料科學家。


2002年發生了一件資料科學的關鍵里程碑事件,第一本學術同行評論期刊《資料科學學報》(Data ScienceJournal)正式創刊。此後又出現了其他幾個期刊,專門促進和傳播這一領域的學術研究成果。


專門的學術期刊的出現對於學術界來說尤為重要——這些期刊促成了新的博士課程(比如我們的)和學術部門,為相關研究、獎學金和發表提供了平臺。現在資料科學教師和博士生可以在自己的圈子裡——而不是電腦科學、數學、商學的圈子裡——開展研究和分享。

 

Q:2011年麥肯錫作出了一項廣為人知的研究預測,在2018年“僅美國一國就會面臨14萬到19萬具備深度分析能力人才的缺口,與此同時存在至少150萬名懂得如何運用大資料做出有效決定的管理人員和分析師的缺口。”這個預測有多準確?我們現在有其他替代方案嗎?


A:我被問到這個問題很多次了——具體來說,許多公司高管問過我諸如“資料科學這事是否只是一時的風潮?”的問題。我想我們應該重新給這個議題劃個框架。


我的觀點是,我們不需要具有深刻的分析能力的“19萬人”或“150萬管理者”。我認為每個人都需要有一定程度的分析技能。我認為基礎分析素養應該像閱讀、數學一樣成為我們的教育體系的基礎部分。如今看到越來越多小學裡也開始教授基礎的程式設計技巧讓我備受鼓舞。在大學的層面,我認為資料科學應成為基礎課的一部分。(我現在可以聽到我們的教務辦公室的人在大喘氣了)。


所以,雖然目前的人才缺口是實實在在的,但這是與市場需求不符的教育制度的造成的。各級教育正在轉向,並很可能在可預見的將來繼續下去。我預計在一代人中,對這些技能的需求不會減少,但供給方面會與之匹配得更密切。


Priestley推論:“資料科學家擅長對資料分析結果進行商業解釋的科學家與擅長資料分析的MBA的混合體”。

 

Q:許多人,包括那些考慮到職業生涯中期轉型的人,已經把目光投向了資料科學。但恐怕並非所有人都適合走這條路。請問資料科學工作中需要哪些能力和技能?成為資料科學家的最佳途徑有哪些?


A:這是個絕佳的問題。我們需要做些什麼來讓我們的下一代準備好,但實際情況是,從20多歲到40多歲的人裡很多人正在尋找機會轉行進入資料科學領域工作。


我在辦公室看到很多這樣的人。我已經有不止一次遇上“我剛剛為了拿一張資料科學的文憑向XX大學付了一萬美元……而我還是找不到工作”之類的對話。雖說這些“文憑”中的一些很有含金量,但悲劇的是,大部分都是垃圾。


首先,你不能指望透過參加一個5天結業拿文憑的課程就從詩人變成資料科學家。指望線上的遠端課程就更不靠譜了。


第二點,我認為人們需要對他們完成自己的職業標的要付出的努力抱有正確的期望。這些技能之所以被如此熱切的需要並能給你帶來高薪是因為它們很難——你最最起碼也得主動學習和精進。


第三點,我認為人們需要清楚他們目前的技能有哪些,他們的標的是什麼。這個問題的答案將決定你如何實現標的。那些受到了簡單的線上證書課程誘惑並深陷其中的人應該想想愛麗絲夢遊仙境裡的那隻Cheshire貓 – “如果你不知道要去哪裡,走哪條路都沒用”。


我對向詢問這一領域相關問題的人給出以下建議:


  • 如果你是個想轉行做資料科學的詩人——我是說正兒八經地的投入它並以一種深刻而有意義的方法將它作為你的事業——你需要放下你的羽毛筆,拿出你的牛仔褲和揹包,上全日制的學校課程。大多數資料科學研究生課程時間不超過兩年,其中多數會提供各種形式的研究生助學金。你應該爭取參與包括程式設計,統計,建模的專案。而且還有充足的機會與當地公司,非營利組織,地方政府等等一起進行真正接地氣的專案。


我覺得怎麼強調實際操作、自己動手,實際經驗對一切資料科學專案的重要性都不為過。這就是為什麼線上/短期證書課程對於想在這一領域從頭開始的人來說不起作用。直接上手做專案會幫助你們瞭解資料科學的更多潛在方面 – 如講故事的作用,創造力(很遺憾地被忽視了)和專案管理。


  • 如果你是個電腦科學家/程式員,就去找找帶有分析課程或者經常使用統計學的商學院課程。你的程式設計和數學技能多半是他們需要的——你則可能需要上些統計/建模/分析的課程——以及(又一次被)培訓如何講述故事,並學習如何在和你有不同想法的人組成的團隊中工作。


  • 我會鼓勵所有人去學習Tableau之類的基本的資料視覺化工具。我同時鼓勵所有人定期參加線上/非同步程式設計課程。這些課程都很便宜(有的還不要錢)並能讓你保持犀利的技術。


我的觀點是,並不是每個人都想成為一名計算機程式員——我就不是特別喜歡程式設計。我是為了獲得我的研究問題的答案而不得不去學程式設計。如果我能用我信賴的HP-12C計算器和自動鉛筆就找到答案的話那我早那麼做了。在21世紀裡,你必須對基礎數學有所瞭解,你必須能夠閱讀、寫作並勝任基本程式設計的工作。

 

Q:資料科學家常談到在許多組織裡,管理層並不真正知道如何將分析手段運用於決策制定。決策制定仍然多數取決於直覺並且很大程度上受到公司政治的影響。您是否有相同經歷?


A:我經常對公司事務發表評論,只要問題發生,不管它多不引人註意我都會發表意見。我劃分了談話框架——組織可以大致分為原生資料組織非原生資料組織兩類。


 “原生資料公司”是那些現在佔據頭條以及股票市場的公司,如亞馬遜、谷歌、臉書。這些公司在30年前不可能存在。不僅僅因為作為他們存在和運營樣式基礎的資料在當時並不存在,還因為即使他們做了,當時也不能獲取足夠的計算能力或執行與人工智慧、機器學習、深度學習等方式相關的深度分析方法讓這些公司從事他們現在正在做的業務。


然而,這些公司的另一個維度往往被忽視:由於它們是原生於資料本身,也因此在企業文化上受到了巨大的影響。它們是從組織圖的頂部到底部都由資料驅動的公司。資料貫穿於他們整個公司的DNA。大多數進入這些公司的人都有以資料為中心的方向——並且可能會研究一個計算學科——越來越側重於資料科學。臉書、谷歌的員工年齡中位數是29歲,亞馬遜則為30歲(不包括倉庫員工)。


 “非原生資料公司”是在我們聽到諸如“資料科學”和“大資料”這樣的術語很久以前就取得成功的公司。例子包括沃爾瑪和Arby’s。它們都是非常成功的公司,成立之初並沒有資料貫穿於其DNA。


雖然這些公司現在已經大力側重將資料用於公司決策及提供產品和服務,但與建立在計算文化上的組織架構有巨大的不同。這些公司的管理層非常有前瞻性,他們把自己的公司轉變為以事實為基礎、用資料做驅動的組織,從而在市場上獲得了領先者地位。他們各自市場上的對手們(希爾斯百貨,梅西百貨 … 麥當勞,溫蒂快餐)則沒有。


Q:最後一個問題,您認為人工智慧和自動化在未來10-15年裡對資料科學造成怎樣的影響?


A:我並非這一領域的專家,但我認為做出任何預測統計學、電腦科學或資料科學會因自動化而消亡的預言都為時過早。計算器只是讓數學計算“自動化”……但是如今的數學比以前的計算要更廣闊也更複雜。我期待在資料科學的領域中也是一樣。

 

原文連結:

https://www.kdnuggets.com/2017/10/become-data-scientist-read-interview-first.html

譯者簡介:韓海疇,中國人民大學2014屆市場營銷系本科畢業生,目前在海南工作。對大資料在市場營銷及金融方面的運用感興趣。希望能在資料派THU這個平臺上與志同道合的朋友們一起學習和交流。

本文轉自:資料派THU 公眾號;

END

版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。

贊(0)

分享創造快樂