【挑戰】機器學習在網際網路應用面臨的 10 大挑戰-知識星球

小編邀請您，先思考：

您在使用機器學習的的挑戰是什麼？
機器學習能做什麼？不能做什麼？

1： “資料稀釋性”：訓練一個模型，需要大量（標註）資料，但是資料往往比較稀疏。比如，我們想訓練一個模型表徵某人 “購物興趣”，但是這個人在網站上瀏覽行為很少，購物歷史很少，很難訓練出一個 “meaningful model” 來預測應該給這個人推薦什麼商品等 …

2：“不平穩隨機過程產生的資料”：機器學習模型往往假設資料的產生是 “平穩隨機過程”。但是有些網際網路資料（比如 spam 郵件，spam 網站等）的產生是動態的，不平穩隨機過程 …

3～4：高數量和高質量 “標定資料” 是機器學習效果的保障，但是獲取標定資料需要耗費大量人力和財力。而且，人會出錯，人有主觀性。如何獲取高數量和高質量標定資料，或者用機器學習方法只標定 “關鍵” 資料 (active learning) 值得深入研究 …

5：”Scalability” 是網際網路的核心問題之一。搜尋引擎索引的重要網頁超過 100 億: 如果1臺機器每秒處理1000 網頁，需要至少100天。所以出現了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分散式計算構架。選擇什麼樣的計算平臺，和演演算法設計緊密相關 …

6：“速度” 是網際網路核心的使用者體驗。線下模型訓練可以花費很長時間：比如，Google 某個模型更新一次需要幾千臺機器，大約訓練半年時間。但是，線上使用模型的時候要求一定要 “快，實時 (real-time)” …

7：網際網路每時每刻都在產生大量新資料，要求模型隨之不停更新，所以 “online learning” 是機器學習的一個重要研究方向。人也是一樣: Life is an online learning process … “online learning” 也是人最重要的能力之一

8：“Cold- Start” (冷啟動) 是網際網路應用的典型問題：一個好網際網路產品，用的人多，得到的資料多；得到的資料越多，模型訓練的越好，產品會變得更好用，用的人就會更多 … 進入 “良性迴圈”。對於一個新產品，在初期，要面臨資料不足的 “冷啟動” 問題 …

9：機器學習之美在於對於不同的問題需要不同建模方法。我去給講座的時候，經常聽有人說：“SVM 做過，Naive Bayes 做過 … 但效果不好”；做過很簡單，但能否 “做到極致”? 這個世界你能想到別人想不到的事情機率極低，只有一件你花十倍努力做到極致的事情！

10：“Human + Machine” 機器學習應用在一個特定領域，需要特定領域的專家知識：機器學習應用在 “醫學”，需要一個經驗豐富的醫生；應用在 “股票”，需要一個有10年以上經驗的操盤手；應用在 “網際網路”，需要一個上網時間超過 1萬小時的 PM …

親愛的讀者朋友們，您們有什麼想法，請點選【寫留言】按鈕，寫下您的留言。

資料人網（http://shujuren.org）誠邀各位資料人來平臺分享和傳播優質資料知識。

公眾號推薦：

好又樂書屋，分享有益處，有趣味的內容，傳播正能量。

閱讀原文，更多精彩！

分享是收穫，傳播是價值！

【挑戰】機器學習在網際網路應用面臨的 10 大挑戰

相關推薦

熱門標籤

熱門文章

分享創造快樂