歡迎光臨
每天分享高質量文章

pandas創始人手把手教你利用Python進行資料分析(思維導圖)

導讀:Python是目前資料科學領域的王者語言,眾多科學家、工程師、分析師都使用它來完成資料相關的工作。由於Python具有簡單易學、語法靈活的特點,很多需要處理資料的人士想要學習,主要有兩大類:

  • 財經類、統計類背景人員,他們的日常工作有大量資料需要處理、分析,但對於學習使用計算機領域的編程語言Python又感到無從下手。

  • 一些想要學習Python的計算機人員,他們工作較忙,沒有太多時間通過互聯網去系統學習Python資料技術

針對這兩類人員的需求,近期出版上市的《利用Python進行資料分析》第2版是很好的選擇。下麵我們結合本書內容,大致介紹下如何利用Python進行資料分析。

01 Python資料分析流程及學習路徑

資料分析的流程概括起來主要是:讀寫處理計算分析建模可視化四個部分。在不同的步驟中會用到不同的Python工具。每一步的主題也包含眾多內容。



根據每個部分需要用到的工具,Python資料分析的學習路徑如下:

02 利用Python讀寫資料

Python讀寫資料,主要包括以下內容:

我們以一小段代碼來看:

可見,僅需簡短的兩三行代碼即可實現Python讀入EXCEL檔案。

03 利用Python處理和計算資料

在第一步和第二步,我們主要使用的是Python的工具庫NumPy和pandas。其中,NumPy主要用於矢量化的科學計算,pandas主要用於表型資料處理。

▲NumPy


▲pandas

04 利用Python分析建模

在分析和建模方面,本書主要介紹了Statsmdels和Scikit-learn兩個庫。

.Statsmodels允許用戶瀏覽資料,估計統計模型和執行統計測試。可以為不同型別的資料和每個估算器提供廣泛的描述性統計,統計測試,繪圖函式和結果統計串列。

.Statsmodels

Scikit-leran則是著名的機器學習庫,可以迅速使用各類機器學習演算法。

▲Scikit-leran

05 利用Python資料可視化

資料可視化是資料工作中的一項重要內容,它可以輔助分析也可以展示結果。本書主要介紹了Python眾多可視化庫中最為主流的Matplotlib:

06 總結:為什麼要選這本書

《利用Python進行資料分析》第2版原作者是美國的資料科學家Wes McKinney,他畢業於麻省理工學院,是大名鼎鼎的Python資料技術類庫pandas的創始人,在多家投資銀行從事過資料科學類的工作。本書第一版由Wes McKinney寫於2010年,經過7年的技術發展,第一版中的部分技術已不再適用,因此他於2017年發表了本書的第二版,對書中的大量技術、代碼、示例進行了更新。由於本書大受好評,國內旋即引進。

關於作者:徐敬一,是《利用Python進行資料分析》第2版的譯者,中國工商銀行的資料分析師,他在工作中大量使用各類Python資料技術,對於Python的數學科學技術棧十分瞭解,同時英語水平良好,使本書的翻譯質量得以保證。

延伸閱讀《利用Python進行資料分析

轉載請聯繫微信:togo-maruko

點擊文末右下角“寫留言”發表你的觀點

推薦語:適合剛學Python的資料分析師或剛學資料科學以及科學計算的Python編程者。閱讀本書可以獲得一份關於在Python下操作、處理、清洗、規整資料集的完整說明。

更多精彩


在公眾號後臺對話框輸入以下關鍵詞

查看更多優質內容!


PPT | 報告 | 讀書 | 書單 | 乾貨

Python | 機器學習 | 深度學習 | 神經網絡

區塊鏈 | 揭秘 | 高考 | 福利

推薦閱讀

Q: 你都在用Python做什麼

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯繫:[email protected]

更多精彩,請在後臺點擊“歷史文章”查看

赞(0)

分享創造快樂