歡迎光臨
每天分享高質量文章

資深資料科學家教你如何從資料中獲得洞見

作者:Rama Ramakrishnan;翻譯:梁傅淇;校對:譚佳瑤;

本文轉自:THU資料派 公眾號;

本文長度為2000,建議閱讀4分鐘

Salesforce高級副總裁,資深資料科學家Rama Ramakrishnan給新入門的資料科學家提供了一種新的從資料中發現洞見的方式:就像一名科學家一樣,從理論出發進行預測,檢查資料,修正理論,再進行預測,如此迴圈。

這個問題經常被提到。


典型的提問者是剛入門的資料科學家,分析師以及對資料科學很陌生的經理。


他們的上司正經受著壓力,得展示收集、儲存和組織資料的系統費用的投資回報率,更別提那些花費到資料科學家身上的錢了。


有的時候他們很幸運。他們也許被要求解決一個非常具體而且已經被很好地解決了的問題(例如,預測哪些顧客傾向於取消他們的手機合同https://blog.kissmetrics.com/improve-by-predicting-churn/)。在這種情況下,有許多種方式可以解決問題,這簡直就是資料科學的天堂。


但是通常來說,他們只被簡單地要求去“挖掘資料,並且告訴我一些有趣的事情”。


從哪裡開始呢?


這是一個很複雜的問題,而且不存在一個完美的答案。我作為一名有經驗的實戰者,已經發展出許多方式去做這件事。這裡是其中一種我覺得非常有效的方式。


它基於兩個觀念:


1. 每家企業都可以被視作擁有許多活動的複雜系統。沒有人可以100%理解它。即使是最有經驗的雇員,他們對企業的理解和企業真正的運作狀況之間也仍然存在著鴻溝。而且由於企業一直都在變化,這條鴻溝會不斷變寬。


2. 任何你所擁有的有關企業的資料都描述了這個複雜系統的行為的某些方面。

 

考慮到這個,你可以將“洞見”看作是任何可以提升你對這個系統的真實運作的理解信息。它填補了你所認為這個系統的運作方式以及它真實的運作方式之間的鴻溝。

或者借用安迪·葛洛夫(Andy Grove)https://en.wikipedia.org/wiki/Andrew_Grove)的著作《格魯夫給經理人的第一課》(High Output Management)中的類比,複雜的系統就像黑箱,而洞見就像是從黑箱的一側所開的一扇窗,光可以透過窗照到箱子里正在發生什麼。


所以對洞見的追尋也可以被認為是通過分析資料來理解複雜的事物是怎麼運作的。


這正是科學家所做的事情!這個世界是不可思議地複雜,但是科學家們卻有一本已經被嘗試和測試過的指南來逐漸提升我們對它的認識,這就是科學方法(https://en.wikipedia.org/wiki/Scientific_method)

 

以下是不正式的總結:


使用他們現在對系統運轉的理解(“理論”),他們可以做出確定的預測。


然後他們檢查資料(有的時候開展精心設計的實驗來收集資料https://www.nasa.gov/feature/goddard/2016/nsf-s-ligo-has-detected-gravitational-waves)來確定資料是否與他們的預測相匹配。


如果並不匹配的話,他們就會深入研究到底發生了什麼,並且更新他們的理解(“修正理論”)。


他們做出新的預測,並且重覆迴圈。

 

資料科學家和分析師可以做同樣的事情。在你開始探索資料的時候,寫下有關你所期望從資料中所見的一個短的清單:主要變數的分佈,重要變數間的關係,等等。這樣的清單本質上是基於你目前對企業的理解的預測。然後分析資料,畫圖,總結,做任何需要做的事情來看它是否和你的期望相符。如果有事物並不匹配呢?如果有任何事物,讓你覺得“這很奇怪”或者“這不符合情理”呢?


放大來看,並且嘗試理解你的企業中哪個部分產生了這個奇怪的事物。這是非常重要的步驟。


你也許就會找到對企業的洞見並且增進你的理解(又或者,你會發現在你的資料被收集或計算的過程中出錯了http://www.exp-platform.com/Documents/TwymansLaw.pdf)。

 

這裡是一個真實的例子。數年以前,我們正在研究一個大型B2C零售商的交易資料,資料集中包含一列“交易數量”(“transaction amount”)的資料。


我們期望看到什麼?我們期望大部分的數量都在平均值左右,部分資料會更小一些,另一部分會更大一些。所以這一列資料的曲線圖看起來應該像這樣:


 

但是當我們檢查資料的時候,我們看到的是:


 

我們探索了讓我們覺得奇怪的,也就是“Hmm”這個部分。


最後發現這些交易並非是他們的典型客戶——為孩子而購物的年輕母親——所做出的。而是由那些一年一次從國外到美國來,走進商店,購買大量商品並且帶回自己的國家,在自己的商店中銷售的客戶所做出的。他們是和我們的零售商沒有特定關係的轉銷商。


這家零售商這時候在北美之外並沒有任何物體,他們的網站也沒有往這些地方派送貨物。但是在他們的版圖之外有充足的需求,以至於當地的企業迅速地發展起來,來填補這個空缺。


這個極小的發現導致了一串有趣的連鎖問題:這些轉銷商都購買了哪些產品,怎樣的促銷活動對他們最適用,甚至是這些資料可以怎樣被用作全球擴張的計劃。


所有的這些都來自於一個簡單的曲線圖。


艾薩克·阿西莫夫(Isaac Asimov)(https://en.wikipedia.org/wiki/Isaac_Asimov)漂亮地抓住了其中的精髓:


在科學中最令人激動的話語,預示著新發現的話語,並非“找到了!“而是”這很有趣……“


——艾薩克·阿西莫夫


註意:從資料回溯到企業中最根本的原因需要時間、精力和耐心。如果你在企業中有很好的聯絡網可以回答你的問題的話,你會變得更加有生產力。同樣地,對你來說非常奇怪的事情,也許對他們來說是習以為常的(因為他們對於企業的理解也許比你的理解要深入),那樣,你就可以節省時間。


通常來說,你越瞭解企業的細微之處,你的預測就會越有針對性,並且最終能夠找到更為深入的洞見。所以,盡全力去深入企業的細節。找出瞭解企業的同事,從他們那裡學習,可能的話,讓他們成為你的“同謀“。


顯而易見,擁有資料科學領域的知識是很有必要的,但是有關企業的知識會對你的工作質量造成更大的影響。


除了資料科學工作以外,我發現“預測並檢查“的觀念樣式也適用於其他型別的分析工作。


在“翻頁“之前,暫停一會兒,想一下你期望看見什麼樣的東西。你會發現,這會形成對照,並且你能夠更容易地在海量的數字當中發現有趣的事情。

 

原文標題:

I have data. I need insights. Where do I start?

原文鏈接:

https://medium.com/towards-data-science/i-have-data-i-need-insights-where-do-i-start-7ddc935ab365;

END

作者:慕生鵬;編輯:馮夕琴;

轉自:資料派THU 公眾號;

版權宣告:本號內容部分來自互聯網,轉載請註明原文鏈接和作者,如有侵權或出處有誤請和我們聯繫。

關聯閱讀

原創系列文章:

1:從0開始搭建自己的資料運營指標體系(概括篇)

2 :從0開始搭建自己的資料運營指標體系(定位篇)

3 :從0開始搭建自己的資料運營體系(業務理解篇)

4 :資料指標的構建流程與邏輯

5 :系列 :從資料指標到資料運營指標體系

6:   實戰 :為自己的公號搭建一個資料運營指標體系

7:  從0開始搭建自己的資料運營指標體系(運營活動分析)

資料運營 關聯文章閱讀:  

運營入門,從0到1搭建資料分析知識體系    

推薦 :資料分析師與運營協作的9個好習慣

乾貨 :手把手教你搭建資料化用戶運營體系

推薦 :最用心的運營資料指標解讀

乾貨 : 如何構建資料運營指標體系

從零開始,構建資料化運營體系

乾貨 :解讀產品、運營和資料三個基友關係

乾貨 :從0到1搭建資料運營體系

資料分析、資料產品 關聯文章閱讀:

乾貨 :資料分析團隊的搭建和思考

關於用戶畫像那些事,看這一文章就夠了

資料分析師必需具備的10種分析思維。

如何構建大資料層級體系,看這一文章就夠了

乾貨 : 聚焦於用戶行為分析的資料產品

如何構建大資料層級體系,看這一文章就夠了

80%的運營註定了打雜?因為你沒有搭建出一套有效的用戶運營體系

從底層到應用,那些資料人的必備技能

讀懂用戶運營體系:用戶分層和分群

做運營必須掌握的資料分析思維,你還敢說不會做資料分析

商務合作|約稿 請加qq:365242293  


更多相關知識請回覆:“ 月光寶盒 ”;

資料分析(ID : ecshujufenxi )互聯網科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。

赞(0)

分享創造快樂