【經驗】普通程式員如何轉做人工智慧-知識星球

小編邀請您，先思考：

1 您擅長那種程式語言？

2 您瞭解深度學習，機器學習和人工智慧嗎？

我曾經也只是一個只懂 ACM 競賽相關演演算法的普通程式員，誤打誤撞接觸到了資料挖掘，之後才開始系統地瞭解機器學習相關的知識，如今已經基本走上了正軌，開始了走向 Data Scientist 的征途。但是最高贊的一篇回答居然是關於 Deep Learning 的，這感覺就想是有人問我這山地車好高階，能不能教我怎麼換擋，我告訴他說，這車太low了，我教你開飛機吧。我想即使目前開飛機（Deep Learning）的門檻一再降低，如果你沒有一個優秀的基礎，即使是老司機也是容易翻車的。簡單認真回答一下，首先作為一個普通程式員，C++ / Java / Python 這樣的語言技能棧應該是必不可少的，其中 Python 需要重點關註爬蟲、數值計算、資料視覺化方面的應用，主要是：

數學基礎

線性代數（矩陣、特徵值、特徵向量、秩）
微積分（極限、導數、拉格朗日中值、泰勒級數展開、傅裡葉變換）

推薦閱讀：吳軍 —《數學之美》、大學相關課程教材

統計學基礎

相關性分析（相關係數r、皮爾遜相關係數、餘弦相似度、互資訊）
回歸分析（線性回歸、L1/L2正則、PCA/LDA降維）
聚類分析（KNN、K-Means）
分佈（正態分佈、t分佈、密度函式）
指標（協方差、ROC曲線、AUC、變異繫數、F1-Score）
顯著性檢驗（t檢驗、z檢驗、卡方檢驗）
A/B測試

推薦閱讀：李航 —《統計學習方法》

機器學習基礎

關聯規則（Apriori、FP-Growth）
回歸（Linear Regression、Logistics Regression）
決策樹（ID3、C4.5、CART、GBDT、RandomForest）
SVM（各種核函式）
推薦（User-CF、Item-CF）

推薦閱讀：《集體智慧程式設計》、Andrew Ng — Machine Learning Coursera from Stanford

此時的你或許已經有一塊可以用的敲門磚了，但離工業界實際應用還有比較大的距離，主要差距就在於 Feature Engineering，這也是我在面試考察有經驗的人面前比較註重的點。這一塊中有一些比較基礎的知識點，

簡單羅列如下：

可用性評估：獲取難度、改寫率、準確率

特徵清洗：清洗異常樣本

取樣：資料不均衡、樣本權重

單個特徵：無量綱化(標準化、歸一化)、二值化、離散化、缺失值（均值）、啞編碼（一個定性特徵擴充套件為N個定量特徵）

資料變換：log、指數、Box-Cox 降維：主成分分析PCA、線性判別分析LDA、SVD分解

特徵選擇：Filter（相關係數、卡方檢驗）、Wrapper（AUC、設計評價函式A*、Embedded（L1-Lasso、L2-Ridge、決策樹、DL）

衍生變數：組合特徵特徵監控：監控重要特徵，fa特徵質量下降放一張公司內部演演算法培訓關於特徵工程的 PPT，僅供學習參考：

再往後你就可以在技能樹上點幾個酷炫的了：

提升

Adaboost
加法模型
xgboost

SVM

軟間隔
損失函式
核函式
SMO演演算法
libSVM

聚類

K-Means 並查集
K-Medoids
聚譜類SC

EM演演算法

Jensen不等式
混合高斯分佈
pLSA

主題模型

共軛先驗分佈
貝葉斯
停止詞和高頻詞
TF-IDF

詞向量

word2vec
n-gram

HMM

前向/後向演演算法
Baum-Welch
Viterbi
中文分詞

資料計算平臺

Spark
Caffe
Tensorflow

推薦閱讀：周志華——《機器學習》

可以看到，不管你是用 TensorFlow 還是用 Caffe 還是用 MXNET 等等一系列平臺來做高大上的 Deep Learning，在我看來都是次要的。想要在這個行業長久地活下去，內功的修煉要比外功重要得多，不然會活得很累，也很難獲得一個優秀的晉升空間。最後，關註你所在行業的最新 paper，對最近的演算法理論體系發展有一個大致印象，譬如計算廣告領域的幾大經典問題：

目的

　　本文的目的是給出一個簡單的，平滑的，易於實現的學習方法，幫助 “普通” 程式員踏入AI領域這個門。這裡，我對普通程式員的定義是：擁有大學本科知識；平時工作較忙；自己能獲取的資料有限。因此，本文更像是一篇 “from the scratch” 的AI入門教程。

AI領域簡介

　　AI，也就是人工智慧，並不僅僅包括機器學習。曾經，符號與邏輯被認為是人工智慧實現的關鍵，而如今則是基於統計的機器學習佔據了主導地位。最近火熱的深度學習正是機器學習中的一個子項。目前可以說，學習AI主要的是學習機器學習。但是，人工智慧並不等同於機器學習，這點在進入這個領域時一定要認識清楚。關於AI領域的發展歷史介紹推薦看周老師寫的《機器學習簡介》。下麵一個問題是：AI的門好跨麼？其實很不好跨。我們以機器學習為例。在學習過程中，你會面對大量複雜的公式，在實際專案中會面對資料的缺乏，以及艱辛的調參等。如果僅僅是因為覺得這個方向未來會“火”的話，那麼這些困難會容易讓人放棄。考慮到普通程式員的特點，而要學習如此困難的學科，是否就是沒有門路的？答案是否定的。只要制定合適的學習方法即可。

學習方法

　　學習方法的設定簡單說就是回答以下幾個問題：我要學的是什麼？我怎樣學習？我如何去學習？這三個問題概括說就是：學習標的，學習方針與學習計劃。學習標的比較清楚，就是踏入AI領域這個門。這個標的不大，因此實現起來也較為容易。“過大的標的時就是為了你日後放棄它時找到了足夠的理由”。學習方針可以總結為 “興趣為先，踐學結合”。簡單說就是先培養興趣，然後學習中把實踐穿插進來，螺旋式提高。這種方式學習效果好，而且不容易讓人放棄。有了學習方針以後，就可以制定學習計劃，也稱為學習路線。下麵就是學習路線的介紹。

學習路線

　　我推薦的學習路線是這樣的，如下圖：

圖1 AI領域學習路線圖

　　這個學習路線是這樣設計的：首先瞭解這個領域，建立起全面的視野，培養起充足的興趣，然後開始學習機器學習的基礎，這裡選擇一門由淺入深的課程來學習，課程最好有足夠的實驗能夠進行實戰。基礎打下後，對機器學習已經有了充足的瞭解，可以用機器學習來解決一個實際的問題。這時還是可以把機器學習方法當作一個黑盒子來處理的。實戰經驗積累以後，可以考慮繼續進行學習。這時候有兩個選擇，深度學習或者繼續機器學習。深度學習是目前最火熱的機器學習方向，其中一些方法已經跟傳統的機器學習不太一樣，因此可以單獨學習。除了深度學習以外，機器學習還包括統計學習，整合學習等實用方法。如果條件足夠，可以同時學習兩者，一些規律對兩者是共通的。學習完後，你已經具備了較強的知識儲備，可以進入較難的實戰。這時候有兩個選擇，工業界的可以選擇看開源專案，以改程式碼為目的來讀程式碼；學術界的可以看特定領域的論文，為解決問題而想發論文。無論哪者，都需要知識過硬，以及較強的編碼能力，因此很能考察和鍛煉水平。經過這個階段以後，可以說是踏入AI領域的門了。“師傅領進門，修行在個人”。之後的路就要自己走了。

　　下麵是關於每個階段的具體介紹：

領域瞭解

　　在學習任何一門知識之前，首先第一步就是瞭解這個知識是什麼？它能做什麼事？它的價值在什麼地方？如果不理解這些的話，那麼學習本身就是一個沒有方向的舟，不知道駛向何處，也極易有沉船的風險。瞭解這些問題後，你才能培養出興趣，興趣是最好的引路人，學習的動力與持久力才能讓你應付接下來的若干個階段。關於機器學習是什麼，能做什麼，它與深度學習以及人工智慧的關係，從機器學習談起：

知識準備

　　如果你離校過久，或者覺得基礎不牢，最好事先做一下準備複習工作。“工欲善其事，必先利其器”。以下的準備工作不多，但足以應付後面階段的學習。

數學：複習以下基本知識。線性代數：矩陣乘法；高數：求導；機率論：條件與後驗機率。其他的一些知識可以在後面的學習的過程中按需再補；

英文：常備一個線上英文詞典，例如愛詞霸，能夠不吃力的看一些英文的資料網頁；

FQ：可以隨時隨地上Google，這是一個很重要的工具。不是說百度查的不能看，而是很多情況下Google搜出來的資料比百度搜的幾十頁的資料還管用，尤其是在查英文關鍵字時。節省時間可是很重要的學習效率提升；

機器學習

　　機器學習的第一門課程首推Andrew Ng的機器學習。這門課程有以下特點：難度適中，同時有足夠的實戰例子，非常適合第一次學習的人。http://open.163.com/special/opencourse/machinelearning.html

這門課程我這裡不推薦，為什麼，原因有以下：

時間：這門課的時間太早，一些知識已經跟不上當今的發展，目前最為火熱的神經網路一筆帶過。而Cousera上神經網路可是用了兩個課時去講的！而且非常詳細；

教學：Ng在cs229 時候的教學稍顯青澀，可能是面對網路教學的原因。有很多問題其實他都沒有講清楚，而且下麵的人的提問其實也很煩躁，你往往不關心那些人的問題。這點在Coursera上就明顯得到了改善，你會發現Ng的教學水平大幅度改善了，他會對你循循善誘，推心置腹，由淺入深的教學，在碰到你不明白的單詞術語時也會叫你不要擔心，更重要的，推導與圖表不要太完善，非常細緻清晰，這點真是強力推薦；

字幕：cs229 的字幕質量比Coursera上的差了一截。Coursera上中文字幕翻譯經過了多人把關，質量很有保證；

作業：cs229 沒有作業，雖然你可以做一些，但不會有人看。這點遠不如Coursera上每週有deadline的那種作業，而且每期作業提交上去都有打分。更重要的是，每期作業都有實際的例子，讓你手把手練習，而且能看到自己的成果，成就感滿滿！

實踐做專案

　　學習完了基礎課程，你對機器學習就有了初步瞭解。現在使用它們是沒有問題的，你可以把機器學習演演算法當作黑盒子，放進去資料，就會有結果。在實戰中你更需要去關心如何獲取資料，以及怎麼調參等。如果有時間，自己動手做一個簡單的實踐專案是最好的。這裡需要選擇一個應用方向，是影象（計算機視覺），音訊（語音識別），還是文字（自然語言處理）。這裡推薦選擇影象領域，這裡面的開源專案較多，入門也較簡單，可以使用OpenCV做開發，裡面已經實現好了神經網路，SVM等機器學習演演算法。專案做好後，可以開源到到 Github 上面，然後不斷完善它。實戰專案做完後，你可以繼續進一步深入學習，這時候有兩個選擇，深度學習和繼續機器學習；

深度學習

　　深度學習：深度學習是目前最火熱的研究方向。有以下特點：知識更新快，較為零碎，沒有系統講解的書。因此學習的資源也相對零散，下麵是一些資源介紹。其中不推薦的部分並不代表不好，而是在這個初學階段不合適：

推薦，UFLDL

http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial

：非常好的DL基礎教程，也是Andrew Ng寫的。有很詳盡的推導，有翻譯，且翻譯質量很高；

推薦，Deep learning (paper)：2015年Nature上的論文，由三位深度學習界的大牛所寫，讀完全篇論文，給人高屋建瓴，一覽眾山小的感覺，強烈推薦。

https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

如果只能讀一篇論文瞭解深度學習，我推薦此篇。這篇論文有同名的中文翻譯；

推薦，Neural networks and deep learning：這本書的作者非常擅長以淺顯的語言表達深刻的道理，雖然沒有翻譯，但是閱讀並不困難；

http://neuralnetworksanddeeplearning.com/

推薦，Recurrent Neural Networks：結合一個實際案例告訴你RNN是什麼，整篇教程學完以後，會讓你對RNN如何產生作用的有很清晰的認識，而這個效果，甚至是讀幾篇相關論文所沒有的；

http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/

不推薦，Neural Networks for Machine Learning – University of Toronto | Coursera：深度學習創始人教的課，最大的問題是太難，而且老先生的吐字有時不是很標準；

不推薦，Deep Learning (book)：同樣也是由深度學習大牛所寫的書，但感覺就像是第二作者，也就是他的學生所寫的。很多內容都講了，但是感覺也沒講出什麼內容來，只是告訴你來自那篇論文，這樣的話可能直接閱讀論文更合適。

不推薦，cs231n：李菲菲的課程，很有名，專門講CNN。但是這門課程有一個最大的問題，就是沒有字幕，雖然有youtube的自動翻譯字幕，但有還不如沒有。

繼續機器學習

　　深度學習未必就是未來的一定主流，至少一些大牛是這麼認為的。傳統的機器學習有如下特點，知識系統化，有相對經典的書。其中統計學習（代表SVM）與整合學習（代表adaboost）是在實踐中使用非常多的技術。下麵是相關資源：

推薦，機器學習(周志華)：如果是在以前，機器學習方面的經典教材首推PRML，但現在周老師的書出來以後，就不再是這樣了。首先推薦讀周老師的書。這本書有一個特點，那就是再難的道理也能用淺顯精煉的語言表達出來。正如周老師的名言：“體現你水平的地方是把難的東西講容易了，而不是把容易的東西講難，想把一個東西講難實在太簡單”；

不推薦，Pattern Recognition And Machine Learning：當前階段不推薦。PRML是以貝葉斯的觀點看待很多機器學習方法，這也是它的一大特色。但對於初學者來說，這種觀點其實並無必要。而且此書沒有中文翻譯，當前階段硬啃很容易放棄；　　

開源專案

　　當知識儲備較為充足時，學習可以再次轉入實踐階段。這時候的實踐仍然可以分兩步走，學習經典的開源專案或者發表高質量的論文。開源專案的學習應該以儘量以最佳化為目的，單純為讀程式碼而學習效果往往不太好。好的開源專案都可以在Github 裡搜尋。這裡以深度學習為例。深度學習的開源優秀庫有很多，例如torch，theano等等，這裡列舉其中的兩個：

推薦，DeepLearnToolbox：較早的一個深度學習庫，用matlab語言撰寫，較為適合從剛學習的課程轉入學習。遺憾的是作者不再維護它了；

推薦，tensorflow：Google的開源庫，時至今日，已經有40000多個star，非常驚人，支援移動裝置；

會議論文

　　較好的課程都會推薦你一些論文。一些著名的技術與方法往往誕生於一些重要的會議。因此，看往年的會議論文是深入學習的方法。在這時，一些論文中的內容會驅使你學習數學中你不擅長的部分。有時候你會覺得數學知識儲備不夠，因此往往需要學習一些輔助課程。當你看完足夠的論文以後，在這個階段，如果是在校學生，可以選擇某個課題，以發論文為目的來學習研究。一般來說，論文是工作的產物。有時候一篇基於實驗的論文往往需要你寫程式碼或者基於開源專案。因此開源專案的學習與會議論文的工作兩者之間是有相關的。兩者可以同時進行學習。關於在哪裡看論文，可以看一下CCF推薦排名，瞭解一下這個領域裡有哪些優秀的會議。下麵介紹兩個影象與機器學習領域的著名頂級會議：

CVPR：與另兩個會議ICCV和ECCV合稱計算機視覺領域的三大會，註意會議每年的主頁是變動的，因此搜尋需要加上年份；

Conference on Neural Information Processing Systems：簡稱NIPS，許多重要的工作發表在這上面，例如關於CNN的一篇重要論文就是發表在上面；

自由學習

　　自由學習：到這裡了，可以說是進入這個門了。下麵可以依據興趣來自由學習。前階段不推薦的學習資源也可隨意學習，下麵是點評：

cs229 ：Ng寫的講義很不錯，其中關於SVM的推導部分很清晰，想學習SVM推薦；

Neural Networks for Machine Learning：大牛的視角跟人就是不一樣，看看Hinton對神經網路是怎麼看的，往往會讓你有種原來如此的感悟。其實看這門課程也等同於讀論文，因為幾乎每節課的參考資料裡都有論文要你讀；

CS231n: Convolutional Neural Networks for Visual Recognition：最新的知識，還有詳細的作業。國內應該有團隊對字幕進行了翻譯，可以找找；

PRML：作為一門經典的機器學習書籍，是很有閱讀必要的，會讓你對機器學習擁有一個其他的觀察視角；

總結

　　本文的目的是幫助對AI領域瞭解不深，但又想進入的同學踏入這個門。這裡只說踏入，是因為這個領域的專精實在非常困難，需要數年的積累與努力。在進行領域學習前，充分認識自己的特點，制定合適的學習方法是十分重要的。首先得對這個領域進行充分瞭解，培養興趣。在學習時，保持著循序漸進的學習方針，不要猛進的學習過難資源；結合著學習與實踐相輔的策略，不要只讀只看，實際動手才有成就感。學習某個資源時要有充分的目的，不是為了學開源專案而看程式碼，而是為了寫開源專案而看；不是為了發論文而寫論文，而是為了做事情而寫論文。如果一個學習資源對你過難，並不代表一定是你的問題，可能是學習資源的演講或撰寫人的問題。能把難的問題講簡單的人才是真正有水平的人。所以，一定要學習優質資源，而不是不分青紅皂白的學習。最後，牢記以興趣來學習。學習的時間很長，過程也很艱難，而只有興趣才是讓你持之以恆，攻剋難關的最佳助力。

親愛的讀者朋友們，您們有什麼想法，請點選【寫留言】按鈕，寫下您的留言。

資料人網（http://shujuren.org）誠邀各位資料人來平臺分享和傳播優質資料知識。

公眾號推薦：

好又樂書屋，專註分享有思想的人物，身心健康，自我教育，閱讀寫作和有趣味的生活等內容，傳播正能量。

閱讀原文，更多精彩！

分享是收穫，傳播是價值！

贊賞

長按二維碼向我轉賬

受蘋果公司新規定影響，微信 iOS 版的贊賞功能被關閉，可透過二維碼轉賬支援公眾號。

閱讀原文

即將開啟”“小程式

取消
 開啟

【經驗】普通程式員如何轉做人工智慧

相關推薦

熱門標籤

熱門文章

分享創造快樂