歡迎光臨
每天分享高質量文章

推薦 :如何全面解析資料並創造資料故事

來源:ANALYTICS VIDHYA CONTENT TEAM 翻譯:國相潔 校對:吳金笛

 

本文4000字,建議閱讀10+分鐘

本文講述瞭如何以更全面和直觀的方式瞭解我們的資料並展示我們的資料。

介紹

“講故事”的主意是極好的:將一個想法或事件變成一個故事。它將想法帶進生活,併為其增添了樂趣。這發生在我們的日常生活中。無論我們陳述一個有趣的事件還是新發現,故事總是吸引聽眾和讀者興趣的首選。

例如,當我們談論一個朋友是如何被老師責罵時,我們傾向於從頭開始講述事件,這樣故事才能流暢。

對於一個 “常見的導致駕駛分心的原因” 的案例,我們以性別分類,可以有2種方式去講述它:

第一種方式,給出如下的統計資料:

  • 6%的男性認為發短信是一種干擾,而女性有4.2%這樣認為;

  • 兒童在車裡可能導致9.8%的男性分心,而女性分心的有26.3%。

第二種方式,以下麵這種視覺的方式,重新創建類似的統計信息:

你覺得哪種,講述了一個更好的故事?

目錄

一、講故事的必要性

二、如何創造故事?

    1. 從紙—筆開始

    2. 深入挖掘,找出你的故事的唯一目的

    3. 使用一個強大的標題

    4. 設計 “路線圖”

    5. 簡要的總結

三、資料型別和合適的圖表

    1. 文本 [Wordclouds 文字雲]

    2. 混合 [Facet Grids 面網格]

    3. 數字 [Line Charts/Bar Charts 折線圖/條形圖]

    4. 股票 [Candlestick Charts 燭臺圖]

    5. 地理 [Maps 地圖]

四、預測模型步驟中的故事

    1. 資料探索

    2. 特征可視化

    3. 模型創建

    4. 模型比較

五、講故事的最佳實踐

六、結尾語

一、講故事的必要性

講故事的藝術,既簡單又複雜。故事激發思考,並能提出以前沒有被理解或被解釋的見解。在資料驅動操作中,它經常被忽視,因為我們認為這隻是一項微不足道的任務。我們沒有意識到的是,再好的故事,如果沒有很好地呈現出來,也終究毫無用處!

 

在一些公司中,分析任何事件的第一步是將故事載入其中。提問如,為什麼我們要分析它?我們能從中作出什麼決定?有時,單憑資料就可以講述一些直觀或複雜的故事,我們就不需要再運行複雜的相關性來證實了。

需要故事和圖像來解釋資料的一個最好的例子是 “Anscombe四重奏解析”。“Anscombe四重奏”中包含四個資料集,它們擁有非常相似的統計結論,但當你將它們可視化後,結果卻完全不同。

以上是 “Anscombe四重奏”中描述的4個資料集。如果只看數字,會發現它們的彙總統計資料幾乎是相同的。

讓我們看看可視化後,它們的樣子:

你有想過這四個資料集會呈現如此不同的視覺效果嗎?

二、如何創造故事?

創造故事或一個情節是推進你的想法的第一步。大多數人沒有去思考他們自己的故事,也就無法區別於平庸。讓我舉個例子,指導你完成創建故事的步驟。

我們將探索一個資料集,該資料集包含新聞頭條和納斯達克100家科技公司每支股票的詳細價格記錄 ( NASDAQ-100 technology sector)。

選擇的列名如下:

 

1. 從紙—筆開始

視覺上引人入勝的演示文稿將啟發你的聽眾,但它們肯定需要投入更多的工作。其中一個最好的演示文稿是在粗糙的頁面和薄紙上創建的。

在你創建你的故事前寫下想法和流程,對於最終的成品非常關鍵。

為了顯著地提高你的分析,你要做的最重要的一件事是要講一個故事。你生成的流程最終的結果中可能會有很多衝突。

亞里士多德的經典五點計劃,有助於提供強烈的影響:

  • 傳遞一個能引起聽眾興趣的故事或觀點;

  • 提出一個必須解決或回答的問題;

  • 為你提出的問題提供一種答案;

  • 描述採用該答案下的行動方案的具體的好處;

  • 提出行動號召。

我構建報告的一般方式是加入圖表,它們能讓我更好的理解資料。

我的第一個想法是,通過使用手頭上的資料,如何能做出更好的股票業務決策?

使用折線圖可以幫助我分析特定股票價格的趨勢線。

如我所見,2016年2月所有股票都下跌了。這將幫助我從那個事件段中搜索新聞,以確定導致下降的原因。現在,我該如何選擇從哪個新聞源獲取信息?

通過確定哪個新聞源對某一特定股票報告的最多,我們將有理由相信,對於該支股票,那將是一個不錯的信息來源。

2. 深入挖掘,找出你的故事的唯一目的

  • 仔細辨認,你的故事是什麼意思。問問自己,“用這個故事我真正地給出的是什麼?” 不是故事本身,而是故事能做什麼,以使你做出更好的決策。你展示的是一個更好的決策或分析的想法。【果殼與果仁兒的關係】

  • 提出一個“個人激情宣言”。用一句話,說出你的期望和為什麼你對於使用這樣的想法而由衷得感到興奮。你的激情宣言將被銘記很久。

3. 使用強大的標題

  • 創建你的標題,一句話來陳述你的故事,視覺或分析。最有效的標題是簡潔的,具體的,並能提供給個人好處的。

  • 記住,你的標題是一個能使你的聽眾更好地去理解的觀點。不是關於你自己的,也不是關於他們的。

4. 設計一個路線圖

  • 創建一個清單,其中包含所有你想讓聽眾,從你的故事,視覺化或分析中知道的關鍵詞.

  • 對該清單分類,直到只剩下3個主要信息點。這3個點構成一組將為你的故事提供縱向路線.

  • 在每條關鍵信息的下麵,添加支持證據以增強敘述。可以是個人故事,事實,例子,類比等。

5. 簡要的總結

現在你已經提出了你故事中的所有關鍵點,你的結論應該簡短有力。在我的報告中,我提到了3–4行的總結來說明為什麼要買某支股票。

三、資料型別和合適的圖表

讓我們瞭解一下常見資料型別和如何通過選擇最適合的圖表來講述故事。

 

常見的資料型別:

1. 文本資料

當資料以這種形式發現時,通常很容易找出一個詞被使用的頻率或文本情感。使用這種形式的資料可以最好地講述故事。

文本資料最適合的可視化方式之一是“文字雲”。它的機理是,將更頻繁的詞放到中心並放大它們,讓我們清楚地瞭解文本的一般概念所描繪的內容。

例如,上面顯示的文字雲給出了Twitter資料集的表示。這表明dismal和miss是最常用的消極詞。

2. 混合資料

當我們的資料由數字或者其它各種格式組成時,我們需要知道哪些格式是重要的,並從資料集中得到好的見解。

這種資料的首選視覺效果可能會有所不同;這裡我將向你展示如何使用“平面網格”來處理資料。我將使用的是泰坦尼克號的乘客資料。

正如這張圖所示,女性和頭等艙乘客的生存幾率高於機組成員或較低艙位的男性。

這不正是泰坦尼克號上真正發生的事嗎?

另一種可視化此類資料的方式是嘗試使用“多變數圖”。下麵是關於汽車性能和規格的資料集。

這裡我們能看到,擁有更重車身的汽車比那些擁有更輕車身的汽車慢。有道理,對嗎?

3. 數字資料

當我們遇到這種資料時,通常會尋找描述數字的線條或趨勢。折線圖會是不錯的選擇。

這裡我們可以很清晰地看到,成人和兒童在當地景點的價格上漲。很容易就看出每年的增長幅度。

4. 股票

我們還會碰到與股票有關的資料集。股市資料主要是一個數值資料的時間序列,但作為一個交易員或投資者,我想謹慎地瞭解每個日期和下跌信息。

在這方面,最具吸引力的可視化方式是“燭臺圖”。

這裡我們以特斯拉股票為例。燭臺圖可以在每個日期上操縱,並單獨查看股票的高低。這有助於我們根據當前或過去的市場趨勢做出更好的投資決策。

如圖所示,2016年2月特斯拉股票下跌。我們可以利用這些信息來瞭解其它市場情況和經濟狀況,從而對它們的股票做出決策。

5. 地理資料

當我們有關於特定位置和區域的資料時,我們使用地圖來增加分析的清晰度和意義。

在這個例子中,我們可以看到各國在2002年世界杯前後的表現。德國隊進球最多,是世界足球史上最具統治力的球隊之一。

四、在預測模型的每一步中講述故事

我們經常被問到,故事和視覺效果在創建資料模型時,是如何起作用或提供幫助的。在預測建模的所有階段中,講述故事可能是對分析的重要補充。

讓我們瞭解從資料中創建模型併在其中講述故事的基本步驟。

1. 資料探索

建模的第一步是瞭解你的資料。我將向你展示如何在不計算複雜的統計資料的情況下,探索資料。

這是一個關於葡萄酒質量的資料集。該資料集的結構如下:

這裡是對該資料集的相關統計摘要:

所以,如果我們需要看酒精量和葡萄酒質量間是否有任何關係時,該怎麼做呢?

可以計算Pearson的‘r’。它將幫助我們建立模型,但不會幫我們分析太多。

這表明酒精含量與葡萄酒質量之間存在很強的相關性。 但它會告訴你其他什麼嗎?

 

理想情況下,它沒有。 那麼,有什麼用呢?

 

讓我們看看,如何從可視化中瞭解更多。

首先,我們看紅酒質量是怎樣和酒精含量相關的。

可以看出,酒精含量越高,葡萄酒質量越好,這有助於我們更好地瞭解我們的資料。在這種情況下,我們還能發現異常值。

接下來,你會想知道葡萄酒中的酸含量是如何影響其質量的嗎?

這是可視化酸效應的一種方式。隨著Violin Plot橫向擴展,錶面在這些區域中有更多的資料點。

2. 特征可視化

在你生成特性後,如何看出一個預測的好壞。

圖表告訴我們,預測點離擬合線的距離。

另一個我們必須創建的視覺效果的例子是“主成分分析”(Principal Component Analysis)。如果您想深入瞭解PCA,可以閱讀下麵鏈接中的文章。

  • Practical Guide to Principal Component Analysis (PCA) in R & Python

https://www.analyticsvidhya.com/blog/2016/03/practical-guide-principal-component-analysis-python/

這是在Rstudio中的Iris資料集:

 

當我們對該資料集運行主成分分析時,會發現這些統計信息。

當我們繪製這個時,我們會發現視覺化結果比統計資料更具信息性。

 

3. 模型創建與比較

到了模型創建階段,我們會發現需要瞭解資料的擬合方式。

這是一個根據道路坡度和顛簸程度預測汽車該快還是慢的模型。

如你所見,決策邊界清楚地對大多數資料進行了分類,但88.21%的準確率並不能說明問題。圖中我們甚至可以看到錯誤分類的點離決策邊界有多遠。

我們可以通過查看決策邊界來比較某些演算法和技術。

下麵顯示了使用Iris資料集的另一個示例:

這裡沒有太多信息來獲取關於模型的有價值的見解。

想瞭解更多關於向量機的信息,可以閱讀下麵這篇文章

  • Understanding Support Vector Machine algorithm from examples (along with code)

https://www.analyticsvidhya.com/blog/2017/09/understaing-support-vector-machine-example-code/

另一方面,該圖向我們展示了一個清晰的物種的分類邊界。

五、講故事的最佳實踐

現在你已經知道可以用“講故事”的方式來解釋我們的觀點,當你自己解決這個問題是,我將給你一些實用的提示:

  • 始終在圖中標記軸並給出繪圖標題;

  • 必要時使用圖例;

  • 使用眼睛看起來較淺並且比例適中的顏色;

  • 避免添加不必要的細節,比如不具備良好可讀性的背景或主題;

  • 只有一個點可以根據水平和垂直位置同時編碼兩個定量值;

  • 如何你正在進行時間序列的編碼,不要使用點進行可視化。

六、結束語

講故事的方式不僅僅是它的用法。它能幫你從你過去遺漏的資料中發掘新見解。數字永遠無法清晰的描述特征和資料之間的關係,故事和圖表將是很好的替代。

本文中我們已經詳細闡述了故事是如何在各種途徑中被使用的。從它們在模型構建步驟中的使用方式開始,我們逐漸瞭解哪些圖表適合哪些特定的資料型別。

希望你讀完這篇文章很開心。 期待聽到你的資料故事!

原文標題:

The Art of Story Telling in Data Science and how to create data stories?

    已同步到看一看
    赞(0)

    分享創造快樂