歡迎光臨
每天分享高質量文章

春招快到了,送你一份資料分析常見面試題

找了半年工作,面試了幾個data science的職位,總結了一些常見的問題,在這兒拋磚引玉。


自我介紹


幾乎所有的面試都免不了以自我介紹為開頭。對於考官,通常也會想基於自我介紹發現接下來要問的問題。所以,自我介紹非常重要。我參考的模板:


教育背景:簡單說說哪年在哪裡獲得什麼學位。


相關經驗:按時間順序講一下2個做過的專案,介紹下用了什麼辦法,比如用了什麼編程語言,最後的成果是什麼。最好有些量化的指標,比如發表了多少論文,被取用了多少次。這些專案最好和麵試的職位有關係。實在沒有,也可以看看從中學到的知識或者技能可否擴展到data science. 比如之前做過信號處理,可以講這個專案為data science打下了統計基礎。


最自豪的成就和表態:介紹一下自己最自豪的專案,關鍵是要點出自己的優勢,比如迅速掌握了一個很大的代碼庫,或者在代碼庫中加入了一個很有用的特性,並再次強調一下自己的優勢,結尾說,我希望能在XX公司繼續發揮這些優勢。





被問過的問題總結


機器學習(Machine learning)演算法


包括演算法對資料的假設,推導,有什麼優缺點,何時改用什麼演算法,怎麼選擇演算法,很類似P2 student intervention的model選擇問題。


作為入門的參考書:Introduction to Data Mining (Pang-Ning Tan, Michael Steinbach, Vipin Kumar);


複雜一點兒的:The Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani , Jerome Friedman)


相關的演算法可能包括:


Classification / Regression

    • SVM:是很多考官的最愛,最好做到可以推導

    • Neural Networks

    • Trees & ensemble methods: boosting, bagging

    • Clustering

    • K-means/median/medoids

    • Spectral clustering

    • Hierarchical

    • DBSCAN: density based spatial clustering of applications with noise

    • Self organizing map

      Association: 這個在Udacity沒有介紹,但是大資料可能會用到

      Apriori 以及它對大資料的衍生

      FP growth 並行實現



    其他演算法問題:

    1、Q-learning: 解釋為什麼update Q value的時候要用下一個state的max Q,為什麼不能用mean?

    2、Kalman filter: 在專案中用到了,要求推導

    3、Expectation maximization



    關於大資料的問題


    1、很多職位要求的資料量,要遠遠大於Udacity的專案,所以會牽扯到一些大資料相關的問題

    2、參考書:Mining of Massive Datasets (Jure Leskovec, Anand Rajaraman, Jeff Ullman) 
    免費的下載:http://infolab.stanford.edu/~ullman/mmds/book.pdf

    3、演算法:

      • Finding similar items

      • Find frequent itemsets

      • Recommendation systems

      • Social graph mining

        關於大資料的問題:

      • 用過的資料量有多大

      • GPU的相關經驗?

      • Hadoop是怎麼讀入很大的資料的? 接受HDFS?

      • Spark的相關專案,用的什麼model和library

      • Spark: RDD相關的概念

      • Spark: 如果資料遠遠大於記憶體,是怎麼處理的?

      • 是否遇到過這樣的情景:通過對資料的初步分析,觀察到有趣的現象?

      • Spark: 舉例說明inner join, outer join, etc.

        其他網上看到的常見問題:

      • Support, confidence, and lift

      • What is curse of dimensionality?

      • A/B testing

      • Precision, recall, F1

      • How to handle missing data?


      來源:優達學城


      精彩活動

      福利 · 閱讀 | 免費申請讀大資料新書 第23期

      推薦閱讀

      2017年資料可視化的七大趨勢! 

      全球100款大資料工具彙總(前50款) 

      論大資料的十大局限

      大資料時代的10個重大變革

      大資料七大趨勢 第一個趨勢是物聯網


      Q: 今年,你準備換工作嗎?

      歡迎留言與大家分享

      請把這篇文章分享給你的朋友

      轉載 / 投稿請聯繫:hzzy@hzbook.com

      更多精彩文章,請在公眾號後臺點擊“歷史文章”查看

赞(0)

分享創造快樂