歡迎光臨
每天分享高質量文章

Python資料科學超強陣容書單

來自:圖靈教育(微信號:turingbooks)


提到資料科學,大家都不陌生,那要是問你資料科學都需要掌握點啥?emmmm……我想很多人可能會犯難。

這麼紛繁複雜的學科,是多種學科交織下的產物,你要掌握的可能不只是某一個方面的知識,甚至有時候你要集統計學家、計算機科學家以及特定領域專家於一身。

這麼說是不是有點怕?不要怕,你只要不把它當做是新技能,就把它當做已經掌握的知識在新領域的應用就可以了。

那你接下來要問了,如何能應用好資料科學?說到這裡不得不提一個編程語言,那就是 Python 。人工智慧的迅速發展,讓更多人加入到了學習 Python 的行列中。如何能用 Python 做好資料分析,更是大家關註的問題。今天,準備安利大家一個超強的書單,希望助大家在學習資料科學的路上一路向前。在介紹書單之前,讓我們先瞭解資料科學的一些背景。

1. 為什麼資料科學青睞 Python?

其實,資料科學並非 Python 一家之“言”,Scala、Java、R、Julia 等編程語言在此領域都有各自不同的工具。至於要不要學 Python,其實沒必要糾結,秉承李小龍的武術哲學即可——Absorb what is useful, discard what is not, and add what is uniquely your own(取其精華,去其糟粕,再加點自己的獨創)。Python 的語法簡潔直觀、易學易用,是表現力最強的編程語言,學會它就可以讓計算機跟隨思想,快速完成許多有趣的事情。同時,它也是備受歡迎的膠水語言,許多由 Java、C/C++ 語言開發的工具都會提供 Python 接口,如 Spark、H2O、TensorFlow 等。

2017 年 3 月 6 日,PyPI(https://pypi.python.org/pypi)網站上的程式包數量就已經達到 10 萬,新的程式包還在不斷地涌現,資料科學目前是 Python 星球最酷炫的風景之一。如果資料科學問題讓你心有掛礙,那麼 Python 這根資料科學的蛇杖(Asklēpiós,阿斯克勒庇俄斯之杖,醫神手杖,醫院的徽章)可以為你指點迷津。

其實,用 Python 語言還有一個原因就是它有龐大的第三方庫和完善的生態系統。


2. 那麼,簡單回顧一下常用的 Python 庫。

核心庫

NumPy

Numerical Python 的簡稱,是 Python 的一種開源的數值計算擴展。它提供了許多高級的數值編程工具,如:矩陣資料型別、矢量處理,以及精密的運算庫。專為進行嚴格的數字處理而產生。

Pandas

是基於 NumPy 的一種工具,該工具是為瞭解決資料分析任務而創建的。Pandas 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。 以及能使我們快速便捷地處理資料的函式和方法。

SciPy

SciPy 是 Python 中用於科學計算的函式集合。它具有線性代數高級程式、數學函式優化、信號處理、特殊數學函式和統計分佈等多項功能。Scikit-Learn 利用SciPy 中的函式集合來實現演算法。

繪圖以及可視化

Matplotlib

Matplotlib 是 Python 的一個繪圖庫。它包含了大量的工具,你可以使用這些工具創建各種圖形,包括簡單的散點圖,正弦曲線,甚至是三維圖形。Python 科學計算社區經常使用它完成資料可視化的工作。

Seaborn

Seaborn 是基於 Matplotlib 的 Python 資料可視化庫, 主要用於統計模型的可視化。提供更高層次的 API 封裝,使用起來更加方便快捷。

機器學習

Scikit-Learn

Scikit-Learn 是用 Python 開發的機器學習庫,其中包含大量機器學習演算法、資料集,是資料挖掘方便的工具。

TensorFlow

TensorFlow 可被用於語音識別或圖像識別等多項機器學習和深度學習領域,對2011年開發的深度學習基礎架構 DistBelief 進行了各方面的改進,它可在小到一部智慧手機、大到數千台資料中心服務器的各種設備上運行。

接下來,送大家 3 個好助手陪你勇闖 Python 資料科學之路。

3. 資料科學三劍客

《Python資料科學手冊》是我們的新書,之前推薦過,作者是 Scikit-Learn、IPython 等諸多庫的代碼貢獻者,華盛頓大學 eScience 學院物理科學研究院院長80%有關機器學習、資料分析或者資料科學的嘗試實際上都是與資料處理和理解資料相關的。而這本書就是為瞭解決這個問題的,在使用 Python 來解決資料處理、資料分析以及資料可視化方面時,這是一本極佳的參考書。這本書還有一個好處就是容易上手,即使你沒有任何 Python 的經驗也可以看懂。

那讀這本書你能獲得什麼?

一個美國亞馬遜的讀者評論說,他買這本書時,只想看 Scikit-Learn 的內容,而這些內容要在後1/3處才提到。前1/3講的都是和 Numpy、Pandas 相關的,中間則是與 Matplotlib 相關的。當他把這些方法應用到實際工作中後,他才恍然大悟,原來前2/3他一直想跳過的內容也同樣是精華。於是,他驚嘆,如果直接跳去看 Scikit-Learn 那麼他的工作就不會這麼高產了。不知道這算不算是一種小幸運呢?美亞 4.5 分好評可不是蓋的。

《Python資料科學手冊》是與 Wes McKinney 大佬的  Python for Data Analysis (中文版《利用 Python 進行資料分析》)齊名的資料科學參考書。甚至,在 Amazon 上的綜合評分略高於後者。讀者在選擇的時候,請事先關註這兩本書的側重點。另外,後者第2版中文版還未引入。

圖靈還有兩本資料科學相關的書,雖然已經出版近三年的時間,但是這兩本書目前依然在國內外非常暢銷。不過,中文版顯然沒有英文版賣得好,這兩本書分別是《資料科學入門》和《資料科學實戰》,前者豆瓣評分6.9(略低了點兒,尷尬,譯者還需努力),後者豆瓣評分8.3。

作者:Joel Grus

譯者:高蓉 , 韓波



本書從零開始講解資料科學。具體內容包括Python簡介,可視化資料,線性代數,統計,概率,假設與推斷,梯度下降法,如何獲取資料,k近鄰法,朴素貝葉斯演算法等。作者借助大量具體例子以及資料挖掘、統計學、機器學習等領域的重要概念,通過講解基礎資料科學工具和演算法實現,帶你快速跨入資料科學大門。書中含大量資料科學領域的庫、框架、模塊和工具包。    

        

作者:Rachel Schutt , Cathy O’Neil 

譯者:馮凌秉 , 王群鋒 



本書脫胎於哥倫比亞大學“資料科學導論”課程的教學講義,由統計系講授資料科學概論課程的講師Rachel Schutt(受雇於谷歌),與資料科學顧問Cathy O’Neil(前D.E. Shaw定量分析師)合作撰寫,每章都會邀請一位資料科學家嘉賓,他們都來自知名公司如谷歌、微軟、或eBay,通過分享案例研究和實際使用的代碼來講授新的演算法、方法或模型。


怎麼樣?感覺哪本更適合目前的你呢?話說這幾本書難度都不是很大,如果從來沒有瞭解過資料科學,建議從《資料科學入門》 開始上手;《Python資料科學手冊》當然是未來資料科學家的隨手查閱小幫手了;而《資料科學實戰》中講解了硅谷知名公司的案例,幫我們解鎖實戰思路。

曾夢想執劍走資料科學之天涯,如今三劍客一起陪你,還怕啥?

點擊查看谷歌機器學習速成課學前預備書單


●編號377,輸入編號直達本文

●輸入m獲取文章目錄

推薦↓↓↓

 

演算法與資料結構

更多推薦:18個技術類微信公眾號

涵蓋:程式人生、演算法與資料結構、黑客技術與網絡安全、大資料技術、前端開發、Java、Python、Web開發、安卓開發、iOS開發、C/C++、.NET、Linux、資料庫、運維等。

分享創造快樂