歡迎光臨
每天分享高質量文章

騰訊技術大牛教你,如何成為 AI 工程師?

活動通知

3月-4月,我們邀請了來自騰訊、華為的多位 AI 大咖,就將基於機器學習、深度學習實踐與落地,攜著知名人工智慧科技企業實際案例與實戰經驗,線上分享有關當下人工智慧技術的那些事,機會難得,千萬不要錯過~(文末看活動內容或新增微信諮詢)

(新增微信,免費報名)

   作者:朱建平 騰訊雲技術總監,騰訊 TEG 架構平臺部專家工程師

1

關於人工智慧的若干個錯誤認知


1.1 人工智慧是 AI 工程師的事情,跟我沒有什麼關係?

大資料和機器學習( AI ) 是解決問題的一種途徑和手段,具有通用性,是一個基礎的技能。當前我們工作中還有很多決策,是基於經驗和預定的規則,未來這部分決策可以透過 AI 讓我們做得更合理更好一些。

隨著人工智慧的發展,特別去年穀歌的 AlphaGo 圍棋戰勝代表人類的頂級棋手李世石,更是引爆了整個網際網路。於是,網上不少人開始了很多擔憂:機器人取代人類,有些人甚至在孩子高考填志願時要求孩子填報藝術創作類似的方向,以避開未來與機器人或人工智慧的競爭。

實際上,雖然目前人工智慧在語音識別,圖片識別近年來取得了突破,但人工智慧還遠未完善: 數學理論尚不完備,“智慧”的取得建立在大量的人工前期工作基礎上,缺乏無監督學習。

1.2 人工智慧太厲害了,未來會取代人類?

隨著人工智慧的發展,特別去年穀歌的 AlphaGo 圍棋戰勝代表人類的頂級棋手李世石,更是引爆了整個網際網路。於是,網上不少人開始了很多擔憂:機器人取代人類,有些人甚至在孩子高考填志願時要求孩子填報藝術創作類似的方向,以避開未來與機器人或人工智慧的競爭。

實際上,雖然目前人工智慧在語音識別,圖片識別近年來取得了突破,但人工智慧還遠未完善: 數學理論尚不完備,“智慧”的取得建立在大量的人工前期工作基礎上,缺乏無監督學習。

2

傳統開發轉行 AI 工程師的障礙

2.1 急於求成的心態

LR, SVM , 決策樹, DNN , CNN , AlexNet , GoogleNet , Caffee , TensorFlow , 智慧駕駛, AlphaGo , 個性化推薦, 智慧語音, GPU , FPGA ……

暈了沒? 沒暈再來一波……

這裡面的水很深,不要太急躁很快能搞懂,事實上由於數學理論不完備,有些東西還真解釋不清楚,比如在影象識別上ResNet 比 GoogleNet 識別率更高,ResNet 是怎麼推匯出來的?

梳理好這些概念,結合實際應用,化整為零逐步理解和吸收,有的放矢,不可操之過急。

2.2 自底往上的學習方法,想要從基本概念學習

建議結合應用場景先動手實踐,再逐步細化。

推薦《機器學習》 周志華 清華大學出版社。

3

AI 工程師的知識結構- 機器學習的基礎知識

3.1 人工智慧、 機器學習、 深度學習的關係

這是現在大家經常混淆的概念,什麼叫做人工智慧?什麼叫做機器學習?什麼叫做深度學習?人工智慧是最大的範疇,只要你用計算機做了一點智慧的事情都可以稱為做了人工智慧的工作。真正的人工智慧應該是讓機器擁有人的智慧,讓機器跟人一樣能看、能聽、能說,能用自然語言跟人進行交流。這個涉及到計算機視覺、語音識別、自然語言處理、人機互動、語音合成等等,是常規的我們研究討論的人工智慧的主要發力點,在網際網路公司有著廣闊應用場景的。

機器學習可能是人工智慧目前最火的領域,深度學習可能又是機器學習最火的子領域。什麼時候需要用人工智慧?直覺上來講資料越複雜,深度學習越可能起作用;資料很簡單很明確,深度學習可能就不怎麼起作用了。比如搜尋領域,目前只有 Google 宣稱他們用深度學習 double 了使用者點選率,是指他們將深度學習運用在使用者瀏覽過、搜尋過的資訊上,那是非常龐大非常複雜的資料。

3.2 機器學習解決問題的基本步驟

一般應用機器學習解決實際問題分為4個步驟:

1)定義標的問題

一般應用機器學習解決實際問題分為4個步驟:目前還沒看到有一個機器學習模型適用於解決所有問題,不同問題有各自適用的模型,如影象相關問題有深度學習、推薦相關問題有專門的推薦演演算法、安全相關問題有異常檢測模型等。脫離具體問題去討論模型是沒有意義的。

2 ) 收集資料和特徵工程

機器學習是面向資料程式設計,資料是機器學習的基礎。訓練模型時,一般會把樣本資料拆成兩部分,其中大部分(約7成)資料用於訓練模型,稱其為訓練集;另外少部分資料用於測試“模型的好壞”(也稱“泛化能力”),稱其為測試集。

同一個機器學習演演算法,好的資料能讓其表現更好,差的資料會讓模型毫無用處。什麼是“好的資料”?並沒有統一定義,從結果看,能讓模型表現良好的資料就是“好的資料”。一個可行的辦法是想象“人”在解決該問題時,會依據哪些資料和特徵做決策,然後挑選這些資料和特徵作為機器學習模型的輸入資料,這個過程就是特徵工程。在應用機器學習時,可能需要反覆做多次特徵工程,特徵工程是個試錯的過程。

3 ) 訓練模型和評估模型效果

利用標註資料,訓練模型資料,而一般的步驟是:

a. 從底層儲存讀取資料 

b. 對訓練資料進行前向計算 

c. 計算訓練誤差 

d. 反向計算梯度,更新網路引數 

e. 重覆a – d 步,直到模型收斂

測試模型效果,一般測試資料集遠小於訓練集,這裡主要是快速前向計算,一般合併在第一步中。

4 ) 線上應用和持續最佳化

模型在訓練集上效能達標,但線上上環境效能不達標,這一現象被稱為“過擬合”。通常的原因是用於訓練模型的資料中特徵的分佈與線上資料偏差太大,此時需提取更具代表性的資料重新訓練模型。

模型線上上應用後,需持續跟蹤模型的效能表現,機器學習是面向資料程式設計,如果線上系統上的資料出現了不包含在訓練集中的新特徵,需要補充新樣本,重新訓練迭代模型以保證預測效果。

3.3 機器學習的相關概念

模型用途:分類、回歸、聚類

主要區分在於 output 的描述是什麼性質:分類是指 output 是整數(即多個類別標簽);回歸是指 output 是一個實數,例如預測股票的走勢,input 是時間,output 就是股票價格;聚類一般都是應用於非監督的狀態下,對 output 完全不知道,只能對 input 資料本身進行統計分析,比如使用者畫像,透過資料之間的關係如關聯程度將資料分成好幾簇。

訓練過程: 監督、半監督和非監督

機器學習是一個用資料訓練的過程;監督是指 input 的每個資料樣本,我們明確知道它的 output (如類別標簽)是什麼;半監督是指我們只知道 input 資料樣本中一小部分的 output ,另外大部分不知道;非監督是指所有 input 的資料樣本,我們完全不知道它們的 output 是什麼。

學習模型:LR/SVM/決策樹(傳統的分類和聚類)DNN(深度神經網路)CNN(摺積神經網路)

4

入門成為 AI 工程師的可行路徑

雖然從垂直領域講有語音識別,影象視覺,個性化推薦等業務領域的AI工程師,但從其所從事的研發內容來看,從事AI研發的工程師主要分為3類:

1 ) AI 演演算法研究

在學校中積累了較好的理論和數學基礎積累,對最新的學術成果能較快理解和吸收。這裡的理論是指比如語音處理,計算機視覺等專業知識。

AI演演算法研究的人主要研究內容有樣本特徵,模型設計和最佳化,模型訓練。樣本特徵是指如何從給定的資料中構建樣本,定義樣本的特徵,這在個性化推薦領域中就非常重要。模型設計和最佳化是設計新的網路模型,或基於已有的模型機型迭代最佳化,比如CNN網路模型中 AlexNet , GoogleNet v1/v2/v3, ResNet 等新模型的不斷出現,另外就是比如模型剪枝,在損失5%計算精度情況下,減少80%計算量,以實現移動終端的邊緣計算等等。模型訓練是指訓練網路,如何防止過擬合以及快速收斂。

2)AI 工程實現

這類人主要提供將計算邏輯,硬體封裝打包起來,方便模型的訓練和預測。比如:

  • 精通Caffee/TensorFlow等訓練框架原始碼,能熟練使用並做針對性最佳化;

  •  構建機器學習平臺,降低使用門檻,透過頁面操作提供樣本和模型就能啟動訓練;

  • 透過FPGA實行硬體加速,實現更低延時和成本的模型預測;

  • 在新模型驗證完成後,實現線上平滑的模型切換。   

3)AI 應用

側重驗證好的模型在業務上的應用,常見語音識別,影象視覺,個性化推薦。當然這也包括更多結合業務場景的應用,比如終端網路傳輸頻寬的預測,圖片轉碼中引數的預測等等。

最好的提升,就在AI專案實戰!

活動通知

3月-4月,我們邀請了來自騰訊、華為的多位 AI 大咖,就將基於機器學習、深度學習實踐與落地,攜著知名人工智慧科技企業實際案例與實戰經驗,線上分享有關當下人工智慧技術的那些事,機會難得,千萬不要錯過~

新增微訊號:tx-ai006,透過審核後即可免費報名

主題內容

▼ 騰訊人工智慧商業應用—微信商業資訊的智慧驗證系統 ▼ 用人工智慧分析《人民的名義》 

▼ AI實戰:人工智慧預警疲勞駕駛 

▼ 用人工智慧教機器寫詩 

▼ 探尋新浪新聞熱搜的秘密 

▼ 人工智慧賦能遊戲外掛—讓你成為QQ遊戲的最強王者 

▼ 淺談人工智慧就業發展方向 

▼ Google「猜畫小歌」背後的 AI 技術解析 

▼ Alphazero打敗職業棋手的大殺器——強化學習 

▼ 騰訊人工智慧產品解密——Foxmail郵件過濾防衛系統

掃描二維碼,獲取活動詳情內容