歡迎光臨
每天分享高質量文章

【資料】作為資料科學家應該學習的第一件事


筆者邀請您,先思考:

1 資料科學家如何構建知識體系?

根據30年的商業經驗,下麵的串列是我認為首先應該在資料科學課中講授的(非全面的)內容選擇。 這是我文章的後續內容為什麼Logistic回歸應該最後講解。

我不確定下麵這些主題是否在資料營或大學課堂上討論過。 問題之一是招聘教師的方式。 招聘過程是有利於以學業成就或其“明星”身份而聞名的個人,並且他們傾向於在數十年內反覆教導同一事物。 厲害的專業人士對成為老師毫無興趣(俗話說:如果你做不到,就寫出來,如果你寫不出來,就教你。)

它不一定是那樣。 大量合格的專業人士,儘管不是明星,但他們會成為完美的老師,並不一定是受到金錢的激勵。 他們在實戰中獲得大量的經驗,可能會是很棒的老師,幫助學生處理真實的資料。 他們不需要成為資料科學家,許多工程師完全有能力(並且有資格)提供強大的資料科學培訓。

在資料科學課程中應該儘早講解的主題

我的建議如下:

  • 概述演演算法如何工作

  • 不同型別的資料和資料問題(資料缺失,資料重覆,資料錯誤)以及探索真實樣本資料集,並且有建設性地批判他們

  • 如何確定有用的度量指標

  • 資料科學專案的生命週期

  • 程式語言簡介和基本命令列指令(Unix命令:grep,sort,uniq,head,Unix管道等)。

  • 將結果傳達給非專家並理解決策者的請求(將請求轉化為資料科學家的行動專案)

  • 概述常見技術的優缺點,以及何時使用它們

  • 實體探究

  • 能夠識別有缺陷的研究

相比之下,傳統資料科學課程中首先討論了一個典型的主題串列:

  • 機率論,隨機變數,最大似然估計

  • 線性回歸,邏輯回歸,方差分析,一般線性模型

  • K-NN(最近鄰居聚類),層次聚類

  • 假設檢驗,非引數統計,馬爾可夫鏈,時間序列

  • NLP,尤其是詞雲(適用於小樣本Twitter資料)

  • 協同過濾演演算法

  • 神經網路,決策樹,線性判別分析,樸素貝葉斯

這些技術沒有什麼根本性的錯誤(除了最後兩個),但是你不可能在職業生涯中使用它們 – 而不是在課堂上提出的基本版本 – 除非你是在一群志同道合的人中全部使用相同的老式黑盒子工具。確實應該教他們,但也許不是一開始。

資料科學課程中應包含的主題

下麵列出的不應該在一開始就教,但是非常有用,很少包括在標準課程中:

  • 模型選擇,工具(產品)選擇,演演算法選擇

  • 經驗法則

  • 最佳實踐

  • 將非結構化資料轉換為結構化資料(建立分類法,編目演演算法和自動標註)

  • 如此處所述,混合多種技術以獲得最佳效果

  • 測量模型表現(R-Squared是最差的指標,但通常是課堂上教授的唯一指標)

  • 資料增強(找到外部資料集和功能以獲得更好的預測能力,將其與內部資料混合)

  • 建立你自己的自製模型和演演算法

  • 大資料的詛咒(與維度的詛咒不同)以及如何區分相關和因果關係

  • 應該更新資料科學實現(例如查詢表)的頻率

  • 從設計原型到生產樣式部署:警告

  • 蒙特卡洛模擬(一種簡單的替代方案,可以計算置信區間和測試統計假設,甚至不需要知道隨機變數是什麼)。

原文連結:
https://www.datasciencecentral.com/profiles/blogs/the-first-things-you-should-learn-as-a-data-scientist-not-what-yo

版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。

您有什麼見解,請留言。

文章推薦:

1 【應用】從業務資料分析到機器學習應用的一次經歷

加入資料人圈子或者商務合作,請新增筆者微信。

資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的資料知識!
我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!


點選閱讀原文,進入資料人網,獲取資料知識。




公眾號推薦:

鏈達君,專註於分享區塊鏈內容

腳印英語,專註於分享英語口語內容



贊(0)

分享創造快樂

© 2024 知識星球   網站地圖