歡迎光臨
每天分享高質量文章

【經驗】2018年努力成為一名資料科學家

2018年努力成為一名資料科學家

  • 1 一個資料科學家是比軟體工作者更擅長統計學,比統計工作者更擅長軟體工程。

  • 2 一個資料科學家是研究和解決有價值的資料問題,他(她)遨遊於資料的海洋中,從資料中學習,實現資料到商業價值的轉換。

  • 3 一個資料科學家是一名資料“通才”,在有所專長的基礎上,儘量的懂得與資料相關的多個領域。

2018年,玩資料和用資料的朋友們,努力成為一名資料科學家

一 戰略層面

戰略層面如何成為一名資料科學家,借用曾國藩的一段話。

士人讀書,第一要有志,第二要有識,第三要有恆。
有志,則斷不甘為下流。
有識,則只學問無盡,不敢以一得自足;如河伯之觀海,如井蛙之窺天,皆無見識也。
有恆,則斷無不成之事。
此三者缺一不可。

簡單地說,就是“三要”。

  • 一要立志向,立什麼志向,成為什麼樣的人。

  • 二要長見識,見多識廣,方知學問無盡,才要學無止境。

  • 三要守恆持,持之以恆,滴水穿石。

二 戰術層面

戰術層面如何成為一名資料科學家,可以考慮下麵六個步驟。

步驟一:資料理解

  • 1 解決資料問題需要什麼資料?

  • 2 資料在哪裡?

  • 3 資料怎麼獲取?

這個步驟用來培養和構建資料科學思維,熟悉資料庫技術,掌握資料爬蟲技術

思維訓練

1 喜歡品酒的朋友,想識別青島啤酒百威啤酒,需要什麼資料,資料在哪裡,如何獲取這些資料?

2 您喜歡聽歌,音樂產品想給您推薦喜歡的歌曲,需要什麼資料,資料在哪裡,如何獲取這些資料?

步驟二:學習程式設計

  • 1 玩資料的工具?

  • 2 開源軟體和商業軟體?

這個步驟用來熟練掌握和綜合使用R語言和Python語言,或者SAS/SPSS/Matlab等商業化軟體。學習程式設計的唯一方法,就是堅持寫程式碼,寫程式碼,寫程式碼!!!

思維訓練

1 R語言和Python語言共同點和差異性分別是什麼?

步驟三:資料視覺化

  • 1 原始資料如何探索?

  • 2 資料結果如何表示?

這個步驟用來掌握資料探索性分析和培養講資料故事的能力

思維訓練

1 R語言ggplot2包如何繪製公開出版的折線圖和氣泡圖?

2 Python語言如何繪製可互動式地動態圖?

步驟四: 資料處理

  • 1 臟資料,如何清洗?

  • 2 資料是分散的,如何整合?

  • 3 資料有異常值,如何發現和處理?

這個步驟用來掌握和熟練原始資料精加工的能力,經過資料處理後,生成可以用於分析和建模的資料,並輸出中間資料。

思維訓練

1 R語言如何做資料處理?

2 Python語言如何做資料處理?

3 R語言和Python語言綜合如何做資料處理?

步驟五:統計學和機器學習

  • 1 統計學的假設檢驗和機器學習的交叉驗證,理解嗎?

  • 2 統計學的P值,機器學習的偏差與方差,欠擬合與過擬合,明白嗎?

  • 3 統計學和機器學習的關係?

  • 4 經典機器學習和深度學習適合什麼應用場景?

這個步驟用來熟悉統計學和機器學習的知識,並且服務於具體的資料問題。

思維訓練

1 統計學用來解決什麼問題?

2 機器學習適合解決什麼問題?

步驟六:加入資料人圈子和參與分享與創造

  • 1 您為這個資料世界貢獻了什麼?

  • 2 您身邊有資料科學圈子嗎?

  • 3 您喜歡分享嗎?

這個步驟用來培養交流和溝通的能力,讓資料洞見和知識服務於更多相關人士。

思維訓練

1 如何生成自動化資料報告?

2 如何做資料報告?

屈原說:

路漫漫其修遠兮,吾將上下而求索。

資料科學家之路,需要勤奮求索,果敢實踐!!!

想加入資料人圈子,請加微信:luqin360。

關於資料科學更多內容,請閱讀原文。



文章推薦:

1 開啟您的資料科學方向

資料科學家修煉記

資料科學經典書籍

掌握資料科學碩士課程大部分內容




圖片賞析:


【溫馨提示:需要原圖,加微信:luqin360】




閱讀原文,更多精彩!

分享是收穫,傳播是價值!

贊(0)

分享創造快樂