如何招聘到優秀的資料科學家？

原文:How to Consistently Hire Remarkable Data Scientists

作者:Jeremy Stanley

品覺導讀：

人們常把招聘看成一種偶爾為之的任務，或是一種突擊戰，需要你在一段時間內全力以赴。但我們要讓招聘成為一個永不熄火的引擎，一輪一輪地篩選人才，過程透明，結果可預測。
資料科學不是一項閉門造車的工作。你要與決策者、工程師以及產品經理協作。讓這些部門的關鍵人員參與其中，才能挑選到可以跨部門工作的人才.
在設立招聘流程時，設立了以下幾個可以衡量的指標：

準確：招到出色員工的機率最大化。
流失：優秀應聘者提早退出的機率最小化。
成功：工作機會被接受的機率最大化。
精力：招聘團隊的長期精力消耗最小化。

4. 設立一個明確的作業評估框架。應考慮以下標準：

正確性——最後答案是否正確？
邏輯——答案中的邏輯是否合理？
假設——所有假設是否清楚明瞭？
程式碼質量——程式碼能否執行，是否經過測試，是否實用
效率——程式碼是否簡潔，質量是否過關？
所用技術——他們是否合理使用了現代化的工具和檔案庫？
溝通——答案是否清晰，作答方式是否合理？

原文翻譯：

本文作者傑裡米·斯坦利（JeremyStanley）是Sailthru公司首席資料科學家兼工程業務執行副總裁，負責個性營銷平臺的智慧化建設。他的資料科學團隊開發的演演算法被用於預測、推薦和最佳化。

應對不確定性是資料科學家的專業素養之一。不管我們面對的資料有多“大”，它都是一個有限樣本，其間充滿了潛在偏誤。模型太簡單，可能就失去了意義；模型太複雜，又得不到信任。我們要小心翼翼地在中間取一個平衡。憑藉控制資料噪音的手段，我們盡可能地對一切進行模擬、測試和驗證。一名優秀的資料科學家應該對自己的資料、方法和結論抱有適當的懷疑態度。

然後有一天，一名資料科學家升職了，接到一個全新的挑戰：評估一名應聘者，看此人適不適合加入他們的團隊。樣本規模一落千丈，實驗看來是不具備可行性了。在工作中，資料偏誤會受到嚴格控制，而面試所產生的偏誤比它高出好幾個數量級。

很多資料科學家訴諸於傳統的招聘方式，但他們不應如此。

在著手構建最近的一個團隊時，我跟許多資料科學團隊的帶頭人進行了交談，收集他們的想法以及最佳操作。對我影響尤深的是Airbnb資料科學主管萊利·紐曼（RileyNewman）的點子。他設計並實施了一套招聘資料科學人才的全新方法。在設計系統時，我曾多次跟紐曼交流。Project Florida的德魯·康威（Drew Conway）也讓我受益匪淺，他不斷打磨自己的招聘流程，以求找到能夠落入其“資料科學文氏圖”交集的合適人才。

本文將概述招聘資料科學家的新流程（由萊利開發，筆者稍加改動），列出基本原則，介紹我們在Sailthru的試行情況。當然，本文還會展望一下進一步調整和改進的機會，否則這篇文章就不能稱之為完整。

如何開啟招聘領域的變革

在設立招聘流程時，我們設立了以下幾個可以衡量的指標：

·準確：招到出色員工的機率最大化。

·流失：優秀應聘者提早退出的機率最小化。

·成功：工作機會被接受的機率最大化。

·精力：招聘團隊的長期精力消耗最小化。

乍一看來，任何經驗豐富的管理者都會說，這四個指標是不可能同時提升的。在實踐中，前三個指標往往是此消彼長的關係（比如，應聘者越優秀，使其接受工作機會的難度就越大）。若要前三個指標同時提升，團隊就需要付出持續的努力。

在傳統招聘流程中，如果能達到50%的準確率，大多數管理者就感覺很幸運了。也就是說，在他們招聘的人中，入職後表現優異的員工比例不會超過50%。流失率是很難衡量的一個指標（畢竟，中途退出的應聘者是你鞭長莫及的），而大多數管理者都會擔心，招聘流程過於冗長，常導致優秀人才流失。

在資料科學這樣競爭激烈的領域，有實力的應聘者通常會收到三份或以上的工作機會，所以，招聘的成功率常常在50%以下。

而招聘需要不斷地投入精力，隨隨便便就能佔到資料科學團隊20%或以上的時間。

在跟其他資料科學團隊主管互證了這一經歷之後，我試圖讓自己的招聘流程做到以下幾點：

·準確：新聘人員中，應該有90%在入職後表現出色。

·流失：進入篩選的應聘者，有80%要收到我們給出的工作機會。

·成功：給出的工作機會中，應有65%被接受。

·精力：在團隊工作中，招聘佔用的時間應低於10%。

這個招聘流程的妙處在於，它在鑒別優秀應聘者的同時，也降低了人才中途流失的風險。這樣一來，前三個指標就可以同時提升。而且，經過前期的大力投資（日後會有可觀的回報），團隊投入的時間和精力就很好控制了。

為實現這些標的，我們設立了一套核心原則，適用於任何職位的招聘。凡是能讓大家專心工作、同心協力的原則，都可以對重大的流程變革起到不小的推動作用。它們也可以充當堅實的基礎，便於日後對流程展開迭代。這些原則是：

確保招聘流程始終開啟，且持續改進。

人們常把招聘看成一種偶爾為之的任務，或是一種突擊戰，需要你在一段時間內全力以赴。但我們要讓招聘成為一個永不熄火的引擎，一輪一輪地篩選人才，過程透明，結果可預測。這樣一來，你就一直處在招聘過程中，一有優秀人才進入勞動力市場，你就能隨時出手。

讓招聘流程始終保持開啟，這會迫使你將招聘視為一門學科。它能促使協議和結果保持連貫性，讓你收集到成功的經驗和失敗的教訓，還能迫使你像呵護資料產品一樣，呵護自己的人才。

招聘流程要反映實際招聘需求

殘酷的現實是，標準化的面試問題有著致命缺陷。

如果問之前的經歷，你知道的是他們描述先前工作情況的口才。如果問專業問題，你瞭解到的是他們複述知識點的能力。如果讓他們在白板上演算“模擬題”，你看到的是他們解答模擬題的快慢。出色透過以上所有測試的應聘者，在實際工作中卻可能是個差勁的資料科學家。

要解決這些缺陷，必須先明確一個問題：你想要應聘者如何開展資料科學工作。通觀全域性，你應該清楚團隊的終端產品是什麼。是供決策者參考的視覺化圖表和分析？是給開發者的設計和原型？還是生產環境中可以規模化的應用？

其次要清楚，你要一個成功的應聘者來做什麼。你希望看到應聘者解決哪些難題，列出其中的五個。對於每個難題，確保你擁有（或者能用合理方式收集到）所需的資料，還要設想一個可能有效的解決方案，即便你不會親自設計。具體要看公司短期戰略、公司或產品運作的可行性、現有或可以合理收集到的資料的限制，所列難題應該在這三者的交集上。

現有團隊是如何開展資料科學工作的？你最希望應聘者能應對何種挑戰？知道了這些問題的答案，你就可以設計一個密切反映工作狀況的招聘流程。也就是說，你要將應聘者放到一個接近日常工作情形的環境裡，然後進行面試。如果應聘者在這樣的環境中脫穎而出，那他們入職後表現優異的機率就要大得多。

先做一輪客觀評估，將主觀偏誤降到最低。

有些應聘者可能在工作中出類拔萃，但在傳統面試中卻會被刷下去。

罪魁禍首就是面試官的偏誤。你一走進房間，就開始對應聘者的能力下結論（大多數是下意識的）。這樣的偏誤種類繁多（這個維基頁面就列出了一百多種認知偏誤），但面試中最常見的偏誤是，面試官往往偏愛跟自己相似的應聘者。

優秀的資料科學家必須擁有強大的定量分析能力和程式設計技能，這是沒有商量餘地的。因此，我們的流程首先要測試這些技能，然後再檢驗更主觀（但依然可衡量）的技能，比如解決問題的能力和溝通能力。直到最後才會涉及最主觀的部分——應聘者在團隊中的表現，以及他們與團隊文化的契合程度。

這些被放在招聘後期的主觀標準，評估起來是最耗時的，也是最容易出現判斷偏誤的。把它們挪到篩選機制的後期，既可以減輕團隊的負擔（我們只有在確信應聘者掌握了必備技能之後，才會去評估他們與團隊的文化契合度），也能將過早失去優秀應聘者的風險降至最低。

在招聘流程中，要同時把職位推銷給應聘者

大多數面試流程都沒能把職位推銷給優秀應聘者。緊張的面試已經算是很好的了；面試最怕的是瑣碎無聊。應聘者往往要向四個或以上的面試官重覆介紹自己的情況，連續好幾個小時回答問題。過後，終於輪到應聘者提問了，可他們往往又不清楚具體的工作情況，因而問不到點上。然後回家等通知，一等就是好幾天。這些反饋毫不及時，也很少有實話實說的。

你所建立的招聘流程，應該把反映公司實際工作情況的資料和問題作為考題，來測試應聘者。除此之外，還要把團隊的節奏和文化展現給應聘者，讓他們對實際工作有一個切身的體會。每一個應聘者在完成面試後，都應該像是吃下一顆定心丸，知道加入你的團隊大致是怎樣一種情形。

和團隊一起做出明智的決定，不要一個人拍板

無論採用何種招聘方式，每個管理者最終都要做出艱難的決定。如果你想在做決定時有十足的把握，就要給每一輪篩選設定明確的評估框架，包括設定每個團隊成員都能理解的標的和指標。

另外，決定要由團隊一起做出。這樣，所有參與招聘流程的人都能直接向招聘經理反饋資訊。更重要的是，這樣大家都會著眼於同一組特質。採用這種開放式的討論，還便於你日後調整招聘需求和招聘策略。

最後，讓其他部門也參與進來。資料科學不是一項閉門造車的工作。你要與決策者、工程師以及產品經理協作。讓這些部門的關鍵人員參與其中，才能挑選到可以跨部門工作的人才。

比市場搶先一步

當前市場上，優秀的資料科學家格外搶手，因此，應聘篩選流程要盡可能地快，不能斷斷續續，要把他們接受其他工作機會的機率降到最低。想要快速推進，必須有一個精簡的流程，在加快速度的同時，堅定應聘者的信心。去投資你所需要的工具和後勤設施，用來追蹤應聘者在每個篩選階段停留的時間，同時大刀闊斧地改革系統，以此構建優勢，並將其保持下去。

實施

在電影《模仿遊戲》（The Imitation Game）中，在艾倫·圖靈（Alan Turing）的管理下，英國破解德國Enigma密碼機的反間諜工作一度接近崩潰。等他想到要求助時，破譯團隊已跟他形同陌路。然而，以他一貫的聰明才智，電腦科學家圖靈設計了一種全新的方法，用來招聘新的團隊成員。

為建立自己的團隊，圖靈開始搜尋新的人才。他先是在《倫敦每日電訊報》（London Daily Telegraph）上刊出一則填字遊戲，誰能在12分鐘內做完，就有資格申請一個神秘職位。成功的應聘者被召集到一間屋子裡接受限時測試，這是在受控環境中考驗他們的數學能力和解決問題的技能。測試結束後，圖靈向約30名應聘者中的兩人發出了要約。

這則軼事告訴我們很多道理。

透過這樣一個過程，圖靈先是廣撒網，把人才都網羅起來，然後用頗具挑戰性的難題和誘人的職位把他們引出來，接下來在受控環境中，對他們的技能加以驗證。電影中有一個杜撰情節，說的是圖靈招聘了一個名叫瓊·克拉克（Joan Clarke）的女士，兩人成了密切的協作者。若不是圖靈這種科學的招聘方式，這位才智過人的女士必定會受制於那個時代的偏見，無論如何都進不了這樣的密碼破譯團隊。

就像《模仿遊戲》一樣，我們將應聘者放到與未來工作環境相近的一系列場景中，評估他們解決問題的能力。這些問題跟他們入職後的表現關係很大，可以作為可靠的預測手段。出人意料的是，若是配合適宜的規劃和前期投資，這樣做的效率比傳統面試還要高，也為團隊節省了時間。

縱觀全域性，這個面試流程有兩個關鍵組成部分：

“家庭作業”：一份小作業，列出一組難度不斷增加的題目，測試應聘者解決問題的能力。

“資料日”：和團隊並肩工作一天，解決一個開放性的試題，最後在評審小組前做演示。

我們把這個流程分成多輪篩選。在500個投來簡歷的應聘者中，250人（50%）要提交“家庭作業”，25人（10%）將透過測試，20人（80%）將參與“資料日”檢驗，4人（20%）透過檢驗，最後3人（75%）接受工作機會。也就是說，每找到一個優秀的員工，我們就需要150個以上的應聘者。

其中有三個關鍵點：（一）應聘者的質量，（二）應聘者“家庭作業”和“資料日”的成功率，（三）“家庭作業”和“資料日”篩選過程的準確性。按照渠道（如他們從何處看到的招聘啟示），追蹤應聘者在篩選過程中的流失情況，這樣就可以找出效率更高的招聘渠道，同時也能發現哪些篩選環節過於嚴苛。

按照四個明確的標的——準確率（僱傭到出色的員工）和成功率（確保他們接受工作機會）最大化，流失率（應聘者中途退出）和精力投入（團隊消耗的時間和精力）最小化——我們投入了大量時間，設計出一個明確而高效的流程。這個流程由資料驅動，對應聘者具有很強的吸引力。

這個流程有以下六個階段，難易程度遞增，主觀性色彩也遞增。

•預篩選：檢查一下有沒有回應

•“家庭作業”：測試應聘者是否具備足夠的技能

•推銷：說服他們接受“資料日”檢驗

•“資料日”：在一個真實、受控的環境中，測試應聘者的能力，並評估其與團隊的文化契合度

•決定：快速地做出一個明確的決定

•溝通：對每一位參與“資料日”檢驗的應聘者進行跟進

下麵，我們從策略角度，對每個階段進行詳細說明。

1. 預篩選

Sailthru並不會對資料科學家進行任何預篩選。我們不需要檢視他們的簡歷，或是討論他們的經驗和資質。

只要有回應（外加一個電子郵件地址），我們就會發出“家庭作業”。

這就相當於《模仿遊戲》中的填字遊戲。它能省下大量的時間和精力，讓你更快地網羅有潛力的應聘者。

但之所以不進行預篩選，最重要的原因還是為了避免初期的一個巨大偏誤來源。很多才智過人的應聘者都不具備招聘人員所尋求的學歷或資歷。這時候，你不僅會錯失優秀的人才，而且到後來，還要為了那些履歷漂亮、人見人愛的應聘者，跟其他公司展開激烈的角逐。

2.“家庭作業”

“家庭作業”格外重要。它是篩選過程中的第一條“分數線”。考慮到遞交的測試量之巨，它需要團隊付出的工作量是最大的。從中，應聘者也會對團隊的工作有一個初步概念。

這一輪篩選不僅設立了一道重要關卡，防止你在不夠格的應聘者身上浪費時間，而且，它在嚮應聘者推銷你的職位方面，也起到了重要作用。出於以上種種原因，你應該收集有關應聘者表現和興趣的資料，持續改進這一輪篩選。

一份適宜的“家庭作業”應具備以下特點：

•清晰明瞭——儘量避免應聘者產生疑問或需要說明的情況。

•時間限制——熟練的應聘者完成它所需的時間不應超過2小時。

•去除敏感資訊——它會廣泛傳播，因此不要包含任何隱私或敏感資料。

•相關性——問題要跟實際工作中面臨的最大難題相匹配。

•直接——闡明你希望應聘者給出怎樣的答案，以及你將如何評估應聘者的表現。

•難度升級——問題的難度要不斷升級，這樣才能測出應聘者的實際技能處在哪個水平。

“家庭作業”的設計，要從資料科學團隊最亟待解決的問題著手，在這些問題中選擇一兩個，並滿足以下條件：（一）擁有或可以虛構有說服力的資料，（二）解決起來要有趣味性，（三）可以簡化（也許是大幅簡化），實力強勁的應聘者應能在兩小時內解答完畢。

在縮小問題範圍之後，把解答“家庭作業”所需的資料編纂出來。理想情況下，這些資料應取自你的生產環境，而且得到充分清理、置換或聚合。這樣，這些資料日後不管落入誰的手裡，都不會對公司造成危害。

或者，你也可以編造一套資料，但要註意的是，在資料科學中，很多挑戰都來自對不一致性和異常值的處理。我的推薦做法是提供約100萬行資料（或可分成多個檔案），這樣既能判斷程式碼的優劣，同時又不至於造成太重的負擔。

資料籌備妥當之後，再設計兩到三個非常明確的問題，在難度上不斷升級，並具備確切、可衡量的答案。你的問題不僅要考驗應聘者操控資料的能力，還要測試他們能否邏輯縝密地進行分析，並對所建模型得出的結果加以解讀。

然後，按照資料和所選問題，起草答題說明。它應該是一個簡短易懂的檔案，對所提供的資料做一個描述，併在最後列出需要應聘者解答的問題。另外，告知應聘者答題時間，這不是為了限制他們的作答時間，而是給他們一個大致的概念，免得有人花好幾天的時間，做一個本來只需幾個小時的題目。

最重要的是，檔案中要有一個部分，專門陳述你希望應聘者如何答題。你希望他們使用哪些工具？你希望他們如何遞交答案？在程式碼質量方面，你有什麼樣的期待？視覺化或解讀對你來說是否重要？這些要求的提出要格外謹慎。這是你推銷自己、推銷公司的重要機會。

然後，把“家庭作業”交給其他團隊成員或社群內其他朋友，調整試題，確保你們就確切答案達成了共識。最不應該出現的情況，就是讓應聘者摸不著頭腦。

最後，設立一個明確的作業評估框架。應考慮以下標準：

•正確性——最後答案是否正確？

•邏輯——答案中的邏輯是否合理？

•假設——所有假設是否清楚明瞭？

•程式碼質量——程式碼能否執行，是否經過測試，是否實用，有沒有進行檔案化？

•效率——程式碼是否簡潔，質量是否過關？

•所用技術——他們是否合理使用了現代化的工具和檔案庫？

•溝通——答案是否清晰，作答方式是否合理？

3. 推銷

一旦應聘者透過了“家庭作業”測試，你的下一步挑戰就是說服他們參加“資料日”面試。大多數人期待的都是傳統的面試過程——在你的辦公室裡最多待上4個小時，肯定到不了一天。你必須讓他們相信，花這麼多時間是值得的。

在推銷時，關鍵看你如何觸動應聘者，如何呈現這樣一個激動人心的機遇，如何描述“資料日”，並幫他們備戰“資料日”。一切都應以激發他們的興趣和熱情為宗旨——此時不是你評估他們的時候。

每個應聘者的動力來源都有所不同，所以很有必要仔細聆聽，將談話導向他們最關心的話題。按照我的經驗，應聘者有以下一些關鍵動力：

•產品和公司的整體潛力。

•資料科學的組織方式，向誰彙報，以及迄今為止它所造成的影響。

•在不遠的將來，資料科學將會面臨的關鍵挑戰或機遇。

•資料科學團隊與其他團隊的跨部門合作情況。

•可獲得資料的範圍、規模和質量，以及未來的收集機會。

•團隊如何管理他們的工作，如何協同優先事項和決策。

•團隊使用的特定工具和技術。

最後，還是會有應聘者無法參與或不願參與“資料日”。雖然這可能意味著錯失人才，但你必須願意承擔其中的風險。

“資料日”是衡量所有應聘者的試金石。

4.“資料日”

從很多層面上講，“資料日”都是這一招聘流程的核心。如果處理得當，你將對應聘者的技術、策略和技巧做出最終評估，分析出他/她和團隊的文化契合度，同時還能把自己的團隊和公司“推銷”給應聘者。在準備充分的情況下，你和團隊付出的時間不會多於傳統面試。

籌備事項清單

·說明：一份簡明扼要的檔案，描述當天的任務、資料、評價標準，以及其他註意事項。

·資料：選取豐富的生產資料，要能對應聘者構成挑戰與啟發。一位出色的資料科學家就算一週都對著這些資料，也不應該感到無聊。

·膝上型電腦：一個功能強大的新膝上型電腦，跟他們工作後將會使用的電腦別無二致，並且預裝了他們所需的資料和應用程式。

“資料日”成功與否，準備工作至關重要。要為應聘者提供發揮實力所需的一切條件，讓他們有充分的時間去解題，最後拿出有意義的成果。

說明檔案

當應聘者前來參加“資料日”的時候，你提供的第一件東西應該是一份打印出來的說明檔案。需要考慮的部分（應盡可能簡潔）包括：

引言——
簡短的歡迎辭，並簡要介紹當天的安排與任務。

免責宣告（或者還有保密協議）——
必要與否，請諮詢公司法務部。

標的——
概述應聘者手頭任務，並告知怎樣的“資料日”才算成功。

建議時間表——
應聘者大致的時間安排應該是怎樣的。明確告知，他們最大的挑戰將是時間不夠。

資料——
粗略介紹一下你所提供的資料，足以為下述部分提供語境即可。

話題——
一個簡短的清單，列出四至五個可以考慮的解題方向（關於這些話題的選擇，後文還會進一步展開）。

評估——
成功的應聘者應做到哪幾點。

技術設定——
簡要介紹膝上型電腦上的工具。

資料細節——
詳細描述你所提供的資料。針對每一份檔案，描述其整體內容、資料集所包含的每一個欄位，以及資料規模（行數或觀測資料）。

最重要的是話題的選擇。話題應該多樣化，這樣一來，應聘者雖然背景各異，但都能找到自己既感興趣又拿手的東西。同時，要讓話題聚焦對公司業務有價值的應用領域。這種情況下，你測試的就是你需要的技能，而且還能讓應聘者對今後從事的工作有一個更加現實的瞭解。

最後，列出的話題應該只是建議。在這一點上，我更喜歡給予應聘者更多的自由。歸根結底，最重要的是，要讓他們有把握得出有意義的分析，併在眾人面前進行演示。

記住，如果說明檔案寫得簡明扼要，那麼你用來解答應聘者疑問的時間將大為減少。

資料

下一步要考慮的是應聘者會用到的資料。這個資料集應區別於“家庭作業”的資料集，主要不同在兩個方面。首先，它不會被廣泛傳播，所以絕對可以使用工作中的資料。但要記住，雖然應聘者用的是你提供的膝上型電腦，但由於它是聯網的，因此資料集並不完全在你掌控之中。所以還是要確保裡面不包含涉及個人的具體資料，或是具有戰略重要性的資料。

其次，這一資料集應該規模大、內容豐富。你可以包含更多的觀測資料、多個資料集、複雜的時間序列，或是讓每個觀測資料涉及多個資料點。“資料日”的關鍵難點之一在於，它要求應聘者面對一組“真實世界”資料集，找出一個具有實際意義的分析方法或建模路徑。這就時常要求應聘者忽略大量的可用資料，或者透過過濾和聚合，對資料加以大幅簡化。

最終，理想情況下，實力強大的應聘者用你提供的材料所得出的結果，往往會出乎你的意料。

另一個重要的考慮事項是，應該將資料預處理到何種程度。通常，除非你測試的就是應聘者過濾雜亂資料的能力，否則我建議讓樣本儘量乾凈一些，以避免他們將寶貴的時間耗費在資料改寫上，從而有更多時間進行分析或建模。

膝上型電腦

給應聘者提供一個膝上型電腦，說明檔案、資料和軟體應放在同一個便於訪問的位置。Sailthru用的是MacBook Pro（公司所有資料科學家和工程師都用Mac或Linux系統的機器），我們會安裝以下軟體：

• HomeBrew

• Anaconda （Python版）

• R

• RStudio

• Emacs和Vim

• Java 7

• Eclipse

有了HomeBrew軟體包管理系統，資料科學家若需要其他軟體，就可以快速安裝。另外，我們將CSV檔案裡的資料置於它們的主目錄之下。我們建議應聘者使用開源的指令碼語言（如Python、R或Julia）來提交“家庭作業”，便於所有人檢視。

日程安排

以下是Sailthru“資料日”的典型日程安排：

10：00 – 歡迎

應聘者抵達。招聘人員接待應聘者，並將其帶到團隊旁的指定座位。

10：05 – 陪同

接待者為資料科學團隊的一名指定人員，此人會陪同應聘者喝咖啡，並參觀辦公室。

10：15 – 熟悉新環境

接待人員將當天的說明檔案連同膝上型電腦一起交給應聘者，並簡要介紹資料在筆記本上的存放位置。

10：20 – 選定方向

應聘者閱讀說明檔案，檢視資料，然後通常會確定一個解題方向。

11：30 – 簡會

應聘者旁聽團隊的日常簡會，從而能夠對日後的工作有一個瞭解。應聘者介紹自己選定的解題方向。

12：30 – 午餐

團隊成員帶應聘者吃午餐，進一步瞭解他/她的背景和個性，應聘者可隨意提問。

按需要而定 – 提問

應聘者可能會向團隊中的任何人提出資料、技術方面的問題，抑或是談話中涉及的其他問題，如果可以，儘量讓接待人員來回答問題。

16：30 – 提醒

我們提醒應聘者，5：30開始演示，鼓勵他們開始準備演示內容。

17：30 – 演示

應聘者就當天的解題發現或成果進行20分鐘的演示，接著是10分鐘的問答環節，由團隊和其他參與者提問。

18：00 – 反饋

我們邀請應聘者就其經歷給出反饋，然後由招聘人員或接待人員帶離，並告知其得到下一步通知的大致時間。

下午18：15 – 決定

團隊完成對應聘者的討論，90%的情況下會當場拍板。

總體來講，團隊投入的時間是比較合理的。接待人員早上花15分鐘，可能下午還會花15分鐘回答問題。簡會和午餐是本來就有的。在演示和問答環節，五名參與者總共需要花30分鐘，之後的決定通常再花15分鐘。總體而言，團隊所有人在這位應聘者身上投入的時間加起來不過4小時多一點，跟一場簡單的傳統面試不相上下。

從文化契合的角度看，最好的考察時間是午餐，你可以看到應聘者在普通社交環境下的表現。

站在技術角度，最好的考察時間是演示後的問答環節。其間，我們會提出試探性的高難度問題，以檢驗應聘者所用方法的嚴謹性，並觀察他們在激烈的技術討論或分析性辯論中，是如何表現的，因為這樣的辯論在我們的團隊中十分常見。

經驗總結

“資料日”是反映團隊和公司的一面鏡子，因此，你應該針對特定需求，對流程做出相應的調整。我們特意在一天結束後邀請應聘者提供反饋，至此，我們已經根據他們的意見和建議，做出了不少的改動。以下是我們最寶貴的幾條經驗：

•應聘者的時間總是不夠用。鼓勵他們選取一個把握比較大的解題方向，並採用迭代式的方法。這樣，萬一走入死衚衕，他們還有足夠的時間去修改。另外還要強調，一個沒有定論的分析如果演示得好，遠勝於定論明確但過程薄弱的分析。

•午餐不要吃太久。應聘者的答題時間是有限的，超過45分鐘以後，他們就會想回去了，以趕在演示前完成任務。

•邀請其他部門人員觀看演示。應聘者將來常打交道的人，都應該在場。這樣一來，你可以就應聘者的工作和溝通風格，聽取這些同事的反饋，同時，也讓應聘者對公司內部的主要關係有一個更好的瞭解。

•在應聘者抵達之前，要毫無隱瞞地將“資料日”安排告知他們。這樣，他們就有時間做好心理準備，便於他們緩解壓力。

5. 決定

Sailthru基於以下層面對應聘者做出評估：

1）問題結構化

你如何對問題進行結構化，做出何種假設，如何縮小範圍？

2）技術嚴謹性

你為完成任務所開發的程式碼，其可靠性、可讀性和靈活性有多好？這種方法的可擴充套件性有多大？

3）分析嚴謹性

你應用的方法（機器學習、統計、分析、視覺化），其邏輯嚴密性、完整性和重要性各如何？

4）溝通

你在描述任務、做法、方法論和結論的時候，表述是否清晰？你對問題的回答是否準確？

5）實用性

如果進入生產階段，你的結果對Sailthru的用處有多大？

我們在“資料日”的說明檔案中寫入了這些標準，這樣，應聘者就知道怎樣才算成功。

在應聘者完成演示和問答環節後，接待人員將其帶離辦公室。我們趁熱打鐵，立刻開始討論應聘者的情況。我們會讓每一名與會者就上述標準分享各自的意見，從團隊外部成員開始，然後是團隊內部經驗最少的成員，再到經驗最豐富的成員。這樣可以避免本團隊成員或團隊管理者給其他人造成先入為主的印象。

總體而言，應聘者只要遭到一個人的極力反對，我們就有充分的理由拒絕此人。

出於技術方面的原因（“家庭作業”確保了大多數應聘者都是合格的），上述情況很少發生。但一旦發生，你就要對測試做出重新評估，確保它能有效地篩選出合格的應聘者。

如果問題出在文化契合度或溝通上，進行公開討論就很有必要。這有助於團隊確立一個合理的行為準則，並加以強化，同時也降低了團隊意見被一個人的偏見所左右的風險。

如果大家都對某一名應聘者不溫不火，此人明顯也無法勝任。這通常是由於應聘者能力有限——成績不佳，思維不夠嚴謹，或者技術執行力不強。如果僵局一直無法打破，這時就需要團隊管理者做出最終決定（拒絕，哪怕這意味著錯失人才），或者邀請應聘者回來，展開進一步的討論。第二情況通常比較少見。

6. 溝通

流程的最後一個階段，就是將結果告知應聘者。“家庭作業”沒有透過的，由招聘人員回覆。我們很想給每個提交答卷的應聘者予以直接反饋，但人數實在太多，在操作上不太可行。

但我們會在資料科學團隊中指派一名成員，對每一個參加過“資料日”但最終未獲得工作機會的應聘者進行跟進，確保他們收到建設性的反饋，並能從這一經歷中學到更多的東西。

最後，對於每一個參與“資料日”的應聘者的潛力，我們都是非常看好的。我們希望能尊重他們付出的時間，並與他們保持聯絡，因為日後可能還會碰頭。畢竟，資料科學行業的圈子並不大。

挑戰與未來機遇

招聘優秀的資料科學家並非易事，我堅信，本文所述流程對Sailthru的招聘起到了重要的推動作用，但我也認為，我們還有更多東西要學習。以下是一些依然困擾我們的問題。

錯失優秀人才

我們的流程中可能會出現過多這樣的問題，比如，一些應聘者也許很適合資料科學的工作，但最終沒有接到工作機會。這最有可能發生在“家庭作業”階段，因為有的人可能不願花時間去做測試。可以採取的措施有兩個，一是修改試題，讓有實力的應聘者可以輕鬆完成；二是提升公司品牌在社群內的知名度。這歸根結底是人才庫開發的問題，它會減緩你招聘到一流人才的速度，因此不容忽視。

邀請實力不俗的應聘者參加“資料日”，結果沒有錄用，這種情況要麻煩得多，因為這些應聘者在我們這裡投入了時間，我們也在他們身上投入了時間。之所以發生這種情況，原因是多方面的，但最普遍的原因是，“資料日”給應聘者創造了一個高壓環境。他們必須在8小時之內，學習一個新的資料集、構思問題、開發解決方案，然後給出演示。

有的應聘者在壓力之下表現優異，有的則不堪重負，無法展示出應有的實力。遺憾的是，我們無法將這些因素納入考量，因為應聘者究竟是壓力太大才表現不佳，還是純粹的沒有能力或效率低下，我們是無法區分的，而後兩種人都是我們不希望引入團隊的。

應聘者在“資料日”環節落選的另一個原因，或許是對工具不太熟悉。他們可能用慣了專有工具或商業工具，或是別的作業系統。也許，我們能購買更多的商業軟體，透過虛擬機器提供Windows系統，來解決這一狀況。但這都需要投入大量資金、消耗運營成本。不過話說回來，熟悉Linux環境和開源工具也是我們十分看重的素質。

讓招聘流程運轉起來

可以說，這個流程最具挑戰性的地方，就是如何讓它運轉起來。如果事先沒有一個扎實的團隊作為基礎，去調整、執行並最佳化這一流程，你就會步履維艱。

另外，這個系統需要資料科學團隊與招聘團隊的協作。雙方都要相信，這些投資和持續改進是值得的，否則，日後的實施和維護就不太可能展開。

推廣到其他部門

Sailthru正在積極調整這一流程，以應用於其他部門，如軟體開發。流程結構可以大致不變，只是所出考題各有不同。

比如招聘開發人員，你可以提出明確的要求和驗收標準，提供一個Github庫，讓他們建一個簡單的應用。透過這個機會，你可以觀察他們如何構建應用併為其編寫程式碼，還能考察他們如何開發軟體（比如基於測試的開發工作），以及如何進行執行程式碼的檔案化。

此外，你也可以拿出現有的一款應用，對其中的一部分加以簡化，讓開發者可以輕鬆執行，然後移除一個特定功能，要求開發者重新程式設計。這樣，你就可以看到新程式碼與原有程式碼的契合度。而且這樣做還有一個好處：對於執行效果，原應用就是一個明確的衡量標準。

結語

對於我所領導的資料科學團隊來說，這一招聘流程無疑是革命性的。一些履歷完美、溝通起來毫無紕漏的應聘者，在面對開放式的資料問題時，卻無法進行結構化，對自身選擇的分析手法也無法提供有力的辯護。對於這樣的應聘者，我們唯有選擇放棄。

但我們也招聘了以前可能絕不會招聘的人。

例如過去，應聘者若是沒有幾年的工作經驗，基本上都會被我淘汰掉，因為我擔心他們太過學術化。但使用這個流程後，我們招聘了這樣一名資料科學家，他只有定量分析專業的博士文憑和幾次實習經歷，但在“資料日”中，他卻展現了出眾的實踐技能。入職頭兩周，他就開始推動生產變革，工作的頭三個月裡，就為公司帶來了十分積極的影響。

然而對於這個流程，我最看重的還是它大大減少了決策過程中的疑慮和不確定性。作為管理者，招聘是我們最重要的決策之一，能夠在確鑿的證據支援下，把握十足地做出決定，這種感覺很棒。

只要一看到有潛力的應聘者，我們就可以迅速行動。我們清楚，我們已將公司和團隊推銷給應聘者，在競爭激烈的人才市場上，我們會立於不敗。還有一個好處是，我們不用每次都去搶奪履歷好看、人見人愛的應聘者，同樣也會招到能夠對公司做出卓越貢獻的人才。

投入時間與精力，建立一個永遠開啟的招聘流程，它行動迅速，穩扎穩打，挑選出的應聘者能夠出色地應對企業的真實挑戰與機遇。

然後你就可以高枕無憂，一心一意地投身於資料科學工作了。

本次轉自：品覺微信公眾號（pinjueche.com）