科大訊飛兩代AI平臺演進之路–訊飛雲端計算研究院副院長龍明康訪談-知識星球

6 月 1 ~ 2 日，GIAC 全球網際網路架構大會將於深圳舉行。GIAC 是一個面向架構師、技術負責人及高階技術從業人員的技術架構大會。今年的 GIAC 已經有騰訊、阿裡巴巴、百度、今日頭條、科大訊飛、新浪微博、小米、美圖、Oracle、鏈家、唯品會、京東、餓了麼、美團點評、羅輯思維、ofo 等公司專家出席。

在大會前夕，高可用架構採訪了本屆 GIAC人工智慧分論壇講師龍明康，就目大家廣泛關註的AI技術方面的問題進行了訪談。

龍明康，2011年加入訊飛，當前任雲端計算研究院副院長，深度參與了語音雲從0到1的建設，主導了語音雲從日均PV從百萬到千億的演進。並主導了AIUI（人機互動系統）、AIoT（智慧物聯網）平臺的建設。擅長高效能高可用的基礎元件和雲平臺系統架構，對AI/人機互動/即時通訊/智慧物聯網領域的平臺化有深入的理解。

高可用架構：很高興能採訪到您。您從事AI有多少年了？AI之前您做什麼呢？能否簡單的介紹一下您？

龍明康：大家好，我是明康，從2011年本科畢業後就來到訊飛參與到語音雲的建設。我的工作主要是把搞AI研究的同學的成果轉移到平臺上，降低開發者使用AI的門檻，讓AI Link到更多的場景中去，用AI賦能各行各業，當前我們開放平臺上開發者數量超過了80萬，這個規模“可能”是國內最大的AI平臺了！大家所熟知的訊飛語音輸入法、鎚子釋出會語音輸入都是這個平臺支撐的。

這個過程中，我還解決各種高併發高可用系統的問題，忙裡偷閑也做了個C10M的推送系統XPush。在2015年的時候，智慧硬體快速爆發，我們發現平臺的能力已經很難滿足開發者需求，於是啟動了AIUI專案，定義了新一代的智慧人機互動標準。這個專案大概閉關了3個月，其中架構討論一個月，研發2個月，發出了第一個版本。

也正是這個專案激起了我對HCI的興趣，如何標準化無、強視覺呈現的語音互動系統，如何提供一套GUI與VUI結合的標準技術棧，以及如何降低開發門檻都是非常有挑戰的事情。在這個過程中也逐漸意識到AI Link場景的重要性，於是啟動了AI2.0以及AIoT平臺的研發。

當前我重點在主導這兩件事情。由於我們做的很多事情都比較超前，所以需要大量的架構和技術方案探索，因此也沒有太多時間在一線Coding，這時常困擾著我。另外我個人比較喜歡開源，最喜歡的專案是Nginx，比較喜歡google的一些技術棧，如Golang，gRPC等。

高可用架構：訊飛在語音識別等場景有很深的積累，能否簡單介紹一下語音識別場景的難點？以及訊飛在語音識別場景所使用的技術？踩過什麼樣的坑？有沒有發生過一些有意思的故事？

龍明康：語音識別如果在理想的環境下是比較好做的，業界現在在理想場景下的語音識別率差距越來越小。難點是如何解決複雜的環境噪音、使用者帶口音、遠場等情況下的識別率低的問題。另外做通用領域的識別相對好做，而專業領域就比較難做，比如醫療、法律等方向。還有一個難點就是做使用者級的個性化聲學模型、語言模型，深度學習當前大多數還是有監督學習，所以如何結合應用場景來降低標註成本也是很有挑戰的事情。當前訊飛語音識別主要使用自研CNN結構的聲學模型，另外也有Encoder-Decoder方案。踩過比較大的坑應該就是關於識別率的最佳化問題。早期大家喜歡在實驗環境做大量的最佳化，達到85%的識別率後，才上線。實際上線後統計，發現只有60%識別率。所以後來吸取了這些經驗，採取先上線，利用真實資料快速迭代的方法。

高可用架構：什麼樣的原因促使您要自建AI平臺？相比較其他的AI平臺，您要解決什麼樣的痛點？支援了哪些AI相關的技術？

龍明康：語音雲大概是在2009年由於繼棟大大提出並啟動專案，早期訊飛的AI能力面向toB銷售，現在看來，當時的樣式就是私有雲的方式。隨著對接越來越多，需求定製和技術支援的工作已經不堪重負，大家意識到平臺化、標準化才是出路。當時雲的概念正在爆發，而且移動網際網路也在崛起，在IPhone革命性的觸屏互動出現後，大家一致認為語音輸入將在移動端大有可為，於是結合內部的訊飛輸入法專案一起做了第一代AI平臺。

上面提到的是內部的痛點，對外而言，我們是想解決開發者使用AI的門檻高的問題，讓AI像水電一樣方便使用是件很難的事情。所以我們也是透過訊飛開放平臺這樣一個視窗，不斷的分析開發者痛點，不斷的改進平臺、API易用性。例如人機互動方案在落地到硬體方案上的週期普遍很長，我們就做了一個成品級解決方案魔飛。我認為現在很多的AI平臺並沒有太多機會接觸到開發者真正的痛點和需求。當前訊飛的AI平臺支援的範圍比較廣，從語音到影象，從軟體到硬體，大家有興趣可以訪問xfyun.cn來詳細瞭解。

高可用架構：能否簡單的介紹一下人工智慧、機器學習、深度學習、神經網路等專業名詞以及它們之間的聯絡？各自領域通常使用什麼技術？或者說有什麼開源的解決方案？

龍明康：通常人工智慧是指透過普通計算機程式的手段實現的人類智慧技術，核心問題包括建構能夠跟人類似甚至超越的推理、知識、規劃、學習、交流、感知、移動和操作物體的能力等。機器學習是解決其中學習問題的方法是人工智慧的一個分支。一般的使用到的演演算法有神經網路、決策樹、支援向量機等深度學習是機器學習的一個分支。常見的開源深度學習框架就是TensorFlow、MXnet等

高可用架構：深度學習的TensorFlow和MXnet應該如何進行選擇？他們各自有什麼樣的優劣？

龍明康：TensorFlow生態很全面，上手簡單，但是效能不夠好。MXnet效能最佳化的比較好，節省視訊記憶體，運算效率高。另外MXnet只做訓練。

高可用架構：目前業內在AI方面的佈局，有自動駕駛、語音識別、智慧客服、機器人等等，能否從技術的角度簡單介紹一下各個方向的難點?（模型、演演算法上有何不同？）

龍明康：語音識別在問題2中已經提到。智慧客服、機器人都偏語意理解領域。眾所周知，漢語是較難掌握的自然語言之一。不同於語音識別，語意理解除了需要被處理語言資訊，還需要更多的輔助資訊，例如知識圖譜、背景關係語境，這些額外資訊如何在模型和演演算法合理的利用當前還是個難題。

高可用架構：能否介紹一下AutoML？AutoML真的能讓普通研發從事AI方面的工作嗎？隨著AutoML越來越強大，AI工程師是否會被取代？

龍明康：Google的AutoML專案旨在利用神經網路設計神經網路，降低人才的門檻，解決當前AI人才極度緊缺的難題。通常一個好的效果模型調優需要以下幾個步驟：資料預處理、特性選擇、模型演演算法選擇、調參、上線後模型的再最佳化、效果評估。AutoML主要完成模型演演算法選擇和模型超引數最佳化。當前Google釋出的Cloud AutoML平臺上只有Cloud AutoML Vision，用於影象識別，從檔案介紹來看已經做到普通研發能使用的程度。

當前AutoML是在一個既定的網路結構上最佳化，而AI工程師可以研究更先進的網路結構和演演算法，所以AI工程師有一部分工作會被AutoML取代，但是完全被取代的可能性比較小。

高可用架構：最近刷遍朋友圈的陸奇離職事件，可謂業內大的人事變動。百度說要all in AI，卻前後經歷了吳恩達、陸奇兩位傳奇人物的離職，是否從另一方面表示AI落地艱難？要做到真正改變人類生活還有一定的距離？

龍明康：百度ALL IN AI後從股價上的表現就說明瞭資本很認可這個戰略。陸奇大大的這個選擇網上有很多解讀，但是我相信他不可能是因為AI落地艱難而退縮。訊飛也一直堅持用人工智慧建設美好世界。當前有很多落地的產品正在改變這人們的生活，例如現在非常火爆的訊飛翻譯機，真正做到了讓世界聊得來。

高可用架構：AI也發展有很多年了，在您看來，AI領域當下的現狀是怎麼樣的？目前的最大的瓶頸可能是什麼？

龍明康：大家都提到人工智慧的三次浪潮，第一次浪潮出現了很多頂級演演算法，但是這些演演算法只能解決狹窄領域的問題，而且當時的計算能力是嚴重不足的，所以進入第一次冬天。第二次浪潮出現了語音識別、機器翻譯、專家系統、類神經網路，但是效果完全達不到人們對AI的預期。第三次浪潮的到來主要依賴大資料技術、深度學習技術的成熟，且在計算能力大幅增加。當前應該已經到了AI應用爆發的時期，隨著大家對AI的理解越來越深刻，AI已經被應用到越來越多的細分領域，從訊飛開放平臺的開發者增長可見一斑。我認為當前的主要瓶頸還是AI人才短缺，這也包括懂AI的業務專家，他們才是把AI帶到世界每個角落的發動機。

高可用架構：對於想快速掌握AI技能的人，需要學習哪些知識？對此，您又有什麼好的建議？

龍明康：作為普通工程師，想入門AI，首先得大概清楚當前AI的一些現狀，能幹什麼，大概能做到什麼程度。要瞭解這個也比較簡單，從訊飛開放平臺上就可以瞭解到很多。第二步需要對AI的生產環節瞭解，大致分為理論研究、模型訓練、引擎工程化、服務化，訓練的部分還有個深度學習平臺需要建設。

AI的進階之路剛好和上面的生產環節相反。有一些分散式服務經驗的的工程師可以從服務化入手，逐漸瞭解引擎的一些特性和運作機制。如果已經具備一些演演算法功底，包括圖論、機率論相關知識就可以轉做引擎工程化。

引擎工程對效能有非常高的要求，所以需要深入計算機體系結構，結合CPU/GPU/memory最佳化。在這個過程中就可以深入探索下模型是怎麼來的。通常這個時候可以去嘗試使用TensorFlow在一些開源的模型上進行調參，要調好參其實還是非常有門檻，需要具備設計模型的能力，這樣的人在訊飛AI研究院都是非常資深的級別了。

再進階就是搞特徵工程了，偏理論研究，需要深入研究泛函、矩陣分析、機率圖模型、隨機過程、最佳化理論等。對於這個進階過程，訊飛內部都有各個階段的培訓材料，在訊飛開放平臺的AI大學中也有部分分享課程。

總之，想要在AI方向上深耕，去一家靠譜的AI公司，使用上面的平滑過渡路線是比較靠譜的。

高可用架構：作為GIAC的AI講師，能否劇透一下，這次您給大家帶來了什麼樣的乾貨？能否分享一些訊飛語音識別等應用場景的實戰內容以及踩過的坑？

龍明康：我這次分享內容主要是第一代AI平臺從0到1的過程以及在流量爆增的過程中遇到的一些坑。另外會介紹一下人機互動平臺AIUI的架構以及後來抽象出來的第二代AI平臺架構。雖然這個過程中我們也做了大量微服務架構的實踐，但是由於分享篇幅有限，這次不會重點分享。最後還會跟大家務虛分享一下我對AI Link行業的理解。希望本次分享能幫助到大家，謝謝！

本期 GIAC 大會上，人工智慧/大資料部分的精彩議題如下：

參加 GIAC，盤點2018最新技術。點選“閱讀原文”瞭解大會更多詳情。

龍明康

贊賞

長按二維碼向我轉賬

受蘋果公司新規定影響，微信 iOS 版的贊賞功能被關閉，可透過二維碼轉賬支援公眾號。

閱讀原文

即將開啟”“小程式

取消
 開啟

科大訊飛兩代AI平臺演進之路–訊飛雲端計算研究院副院長龍明康訪談

相關推薦

熱門標籤

熱門文章

分享創造快樂