筆者邀請您，先思考：

1 資料科學家如何構建知識體系？

根據30年的商業經驗，下麵的串列是我認為首先應該在資料科學課中講授的（非全面的）內容選擇。這是我文章的後續內容為什麼Logistic回歸應該最後講解。

我不確定下麵這些主題是否在資料營或大學課堂上討論過。問題之一是招聘教師的方式。招聘過程是有利於以學業成就或其“明星”身份而聞名的個人，並且他們傾向於在數十年內反覆教導同一事物。厲害的專業人士對成為老師毫無興趣（俗話說：如果你做不到，就寫出來，如果你寫不出來，就教你。）

它不一定是那樣。大量合格的專業人士，儘管不是明星，但他們會成為完美的老師，並不一定是受到金錢的激勵。他們在實戰中獲得大量的經驗，可能會是很棒的老師，幫助學生處理真實的資料。他們不需要成為資料科學家，許多工程師完全有能力（並且有資格）提供強大的資料科學培訓。

在資料科學課程中應該儘早講解的主題

我的建議如下：

概述演演算法如何工作
不同型別的資料和資料問題（資料缺失，資料重覆，資料錯誤）以及探索真實樣本資料集，並且有建設性地批判他們
如何確定有用的度量指標
資料科學專案的生命週期
程式語言簡介和基本命令列指令（Unix命令：grep，sort，uniq，head，Unix管道等）。
將結果傳達給非專家並理解決策者的請求（將請求轉化為資料科學家的行動專案）
概述常見技術的優缺點，以及何時使用它們
實體探究
能夠識別有缺陷的研究

相比之下，傳統資料科學課程中首先討論了一個典型的主題串列：

機率論，隨機變數，最大似然估計
線性回歸，邏輯回歸，方差分析，一般線性模型
K-NN（最近鄰居聚類），層次聚類
假設檢驗，非引數統計，馬爾可夫鏈，時間序列
NLP，尤其是詞雲（適用於小樣本Twitter資料）
協同過濾演演算法
神經網路，決策樹，線性判別分析，樸素貝葉斯

這些技術沒有什麼根本性的錯誤（除了最後兩個），但是你不可能在職業生涯中使用它們 – 而不是在課堂上提出的基本版本 – 除非你是在一群志同道合的人中全部使用相同的老式黑盒子工具。確實應該教他們，但也許不是一開始。

資料科學課程中應包含的主題

下麵列出的不應該在一開始就教，但是非常有用，很少包括在標準課程中：

模型選擇，工具（產品）選擇，演演算法選擇
經驗法則
最佳實踐
將非結構化資料轉換為結構化資料（建立分類法，編目演演算法和自動標註）
如此處所述，混合多種技術以獲得最佳效果
測量模型表現（R-Squared是最差的指標，但通常是課堂上教授的唯一指標）
資料增強（找到外部資料集和功能以獲得更好的預測能力，將其與內部資料混合）
建立你自己的自製模型和演演算法
大資料的詛咒（與維度的詛咒不同）以及如何區分相關和因果關係
應該更新資料科學實現（例如查詢表）的頻率
從設計原型到生產樣式部署：警告
蒙特卡洛模擬（一種簡單的替代方案，可以計算置信區間和測試統計假設，甚至不需要知道隨機變數是什麼）。

原文連結：
https://www.datasciencecentral.com/profiles/blogs/the-first-things-you-should-learn-as-a-data-scientist-not-what-yo

版權宣告：作者保留權利，嚴禁修改，轉載請註明原文連結。

您有什麼見解，請留言。

文章推薦：

1 【應用】從業務資料分析到機器學習應用的一次經歷

加入資料人圈子或者商務合作，請新增筆者微信。

資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念：人人投稿，知識共享；人人分析，洞見驅動；智慧聚合，普惠人人。
您在資料人網平臺，可以1）學習資料知識；2）建立資料部落格；3）認識資料朋友；4）尋找資料工作；5）找到其它與資料相關的乾貨。
我們努力堅持做原創，聚合和分享優質的省時的資料知識！
我們都是資料人，資料是有價值的，堅定不移地實現從資料到商業價值的轉換！

點選閱讀原文，進入資料人網，獲取資料知識。

公眾號推薦：

鏈達君，專註於分享區塊鏈內容。

腳印英語，專註於分享英語口語內容。

長按二維碼向我轉賬

資料知識樹

受蘋果公司新規定影響，微信 iOS 版的贊賞功能被關閉，可透過二維碼轉賬支援公眾號。

閱讀原文

即將開啟”“小程式

取消
 開啟

【資料】作為資料科學家應該學習的第一件事

在資料科學課程中應該儘早講解的主題

資料科學課程中應包含的主題

相關推薦

熱門標籤

熱門文章

分享創造快樂