【資料】如何獲取高質量資料？-知識星球

小編邀請您，先思考：

1 如何獲取高質量資料？

2 資料質量如何識別？

溫馨提示：加入圈子或者商務合作，請加微信：luqin360

長期以來，在機器學習中不合理的資料利用效率一直是引起廣泛討論的話題。也有人認為，曾經阻礙人工智慧領域取得各種重大突破的，並不是什麼高深的演演算法，而是缺乏高質量的資料集。然而討論的共同中心是，在當下最前沿的機器學習方面，資料是一個相當關鍵的組成部分。

獲取高質量的初始資料對於那些運用機器學習作為他們業務核心技術的創業公司來說是十分重要的。雖然許多演演算法和軟體工具都是開源和共享的，但是好的資料通常是私人專有而且難以建立的。因此，擁有一個大型的、特定領域的資料集可以成為競爭優勢的重要來源，尤其是如果初創公司能夠啟動資料網路效應(在這種情況下，更多的使用者→更多的資料→更智慧的演演算法→更好的產品→繼續帶來更多的使用者)。

因此，對於機器學習創業公司必須做出的一個關鍵戰略決策是如何建立高質量的資料集來訓練他們學習演演算法。不幸的是，初創公司往往在一開始只有有限的或沒有標簽的資料，這一情況會阻礙創始人在構建資料驅動的產品方面取得重大進展。因此，在僱傭資料科學團隊或建立昂貴的核心基礎設施之前，從一開始就值得探索一套資料收集策略。

創業公司可以透過多種方式剋服剛開始進行資料採集時遇到的棘手的問題。資料戰略/資源的選擇通常與商業樣式的選擇、創業公司的關註重點(消費者或企業、橫向或縱向的)以及融資情況密切相關。以下簡單列出幾種並不互斥的策略，為廣泛的可用方法提供了一種大體框架。

策略＃1:手動工作

從頭構建一個良好的專有資料集基本意味著要將大量的前期工作和人力資源投入到資料獲取上，還要完成大量無法批次完成的的手動工作。在初期藉助人力的創業公司的例子很多。例如，許多聊天機器人初創公司(透過改變對成功的定義和高職工流動率吸引求職者)僱傭真人來做“人工智慧培訓師”，讓他們手動建立或驗證機器人所說的話。就連科技巨頭也採取了這種策略:Facebook M(一個最新內建在Facebook Messenger中人工智慧驅動的數字助理)的所有回應都是由一個承包商團隊審查和編輯的。

使用人力來手動標記資料點可以是一個成功的策略，只要資料網路效應在某個時間點生效，這樣所需要的人力就不再以與使用者增長相同的速度增加。只要人工智慧系統進步的速度足夠快，未指明錯誤就會出現地不那麼頻繁，相應地，執行手工標記的人的數量也將會減少或保持不變。

適用物件：幾乎每一家機器學習創業公司

例子:

1.一些聊天機器人創業公司(包括Magic、GoButler、x.AI和Clara)

2.MetaMind(用於食品分類的手工收集和標記資料集)

3.Building Radar(員工/實習生手動標記建築物的圖片)

策略＃2:縮小問題範圍

大多數創業公司都會嘗試直接從使用者那裡收集資料。

挑戰在於說服早期使用者在機器學習的好處完全發揮作用之前保持使用該產品(因為首先需要資料來訓練和微調演演算法)。

解決這個自相矛盾的問題的方法之一，是徹底縮小問題範圍(如果需要的話，可以在之後再擴大)。正如Chris Dixon所說:“你所需要的資料量與你試圖解決的問題的廣度有關。”

這樣縮小問題範圍的好處再一次體現在聊天機器人上。這一領域的創業公司可以在兩種市場策略之間做出選擇:他們可以建立水平助手——可以幫助解決大量問題和回應即時請求的機器人(比如Viv、Magic、Awesome、Maluuba和Jam)。或者，他們也可以建立垂直助手——能出色完成一項具體、明確的任務的機器人(例如x.ai, Clara, DigitalGenius, Kasisto, Meekan以及最近的GoButler/Angel.ai)。這兩種方法都是有效的，不管如何選擇，只要縮小了問題的範圍，資料收集對創業公司來說都要容易得多。

適用物件：經營垂直整合業務的公司

例子:

1.高度專業化的垂直聊天機器人(如 x.ai, Clara or GoButler)

2.Deep Genomics(利用深度學習來分類/解釋基因變異)

3.Quantified Skin(使用客戶自拍照來分析一個人的面板)

策略＃3:眾包/外包

除了讓員工(或實習生)來手動收集或標註資料，創業公司也可以透過眾包來達到目的。像Amazon Mechanical Turk 或CrowdFlower 的平臺提供了一種方法，可以利用數百萬人的線上勞動力來清理混亂和不完整的資料。

例如，VocalIQ(2015年被蘋果收購)使用亞馬遜土耳其機器人為其數字助手提供數千個使用者提出的問題。員工也可以透過僱傭其他獨立的承包商來外包(就像Clara 或Facebook M所做的那樣)。使用這種方法的必要條件是可以清楚地解釋這個任務，而且它不至於太長或者很無聊。

另一種策略是鼓勵公眾自願提供資料。一家總部位於巴黎的人工智慧創業公司Snips就是一個例子，該公司利用這種方法獲得特定型別的資料(餐廳、酒店和航空公司的電子確認信)。和其他創業公司一樣，Snips使用的是一種遊戲化的系統，使用者可以在排行榜上進行排名。

適用物件:可以很容易地執行質量控制的情況

例子:

1. DeepMind, Maluuba, AlchemyAPI，和其他很多人(見這裡see here)

2.VocalIQ(用土耳其機器人幫助系統學習人們如何說話)

3. Snips (要求人們無償為研究提供資料)

策略# 4:引導使用者自發參與

有一種能夠自成一類的眾包策略，是透過恰當的方式引導使用者自發地產生資料。這種方法中很重要的一步是設計能夠為使用者提供恰當激勵，使其主動將資料結果反饋給系統的產品。

那些在自家許多產品中都使用了這種方法的公司裡，有兩個十分典型的例子:谷歌(搜尋引擎、谷歌翻譯、垃圾郵件過濾器等等)和Facebook(使用者可在照片中給朋友加標簽)。使用者通常不知道他們的行為在為這些公司提供免費的標簽資料。

機器學習領域的許多初創公司都從谷歌和Facebook中汲取了靈感，他們建立了具有糾錯功能的產品，明確地鼓勵使用者糾正機器錯誤。這方面特別出名的是reCAPTCHA 驗證碼和Duolingo(都是由路易斯馮創立的)。其他的例子包括Unbabel，Wit.ai 和 Mapillary.

適用物件：以消費者為中心並且有穩定使用者互動的創業公司

例子:

1.Unbabel(使用者糾正機器翻譯的社群)

2. Wit.ai (為使用者提供了用於糾正翻譯錯誤的面板/api)

3. Mapillary (使用者可以糾正機器生成的交通標誌檢測)

策略# 5:開發副業務

一個似乎特別受計算機視覺創業公司歡迎的策略是有針對性地向用戶提供一個免費的、特定領域的手機app。

Clarifai、HyperVerge和Madbits(2014年被Twitter收購)都採取了這一策略，它們向用戶提供能夠為自己的核心業務收集額外影象資料的照片應用。

這個策略並不是完全沒有風險（畢竟，成功開發和推廣一個app是要花費時間和金錢的）。創業公司還必須確保他們建立了一個足夠強大的使用案例，能讓使用者乖乖交出他們的使用資料，即使在開始時缺少資料網路效應的優勢。

適用物件：初創企業/橫向平臺

例子：

* Clarifai（Forevery，可用來發現新照片的應用程式）

* HyperVerge（Silver，可用來組織照片的應用程式）

* Madbits（Momentsia，可用來拼貼照片的應用程式）

策略＃6：資料陷阱

另一種收集有效資料排放的方法是構建Matt Turck所謂的“資料陷阱”（Leo Polovets已經給了這個策略一個不太可愛的名字：“特洛伊木馬收集資料法”）。標的是創造一些即使在沒有機器學習的情況下也有價值的東西，然後以收集資料的成本出售（即使其中的邊際效益很小）。與之前的策略形成對比的是，構建資料陷阱是創業公司商業模型的核心部分（而不僅僅是一個副業務）。

一個相關的例子是Recombine，一家臨床基因檢測公司，透過提供生殖力測試服務來收集DNA資料，然後可以將DNA資料用機器學習進行分析。另一個例子是BillGuard（被Prosper於2015年收購），一家提供了一個幫助信用卡使用者爭取“灰色費用”的移動端app的創業公司。該應用程式幫助BillGuard獲得大量之後還可以用於其他目的欺詐資料。另一邊Telsla也正在使用這個策略。作為擁有超過10萬輛（配有感測器的）車輛正被用於行駛的公司，Tesla目前正在建造最大的自動駕駛訓練資料集（每天可以收集比Google更多的自動駕駛里程）。

適用物件：經營垂直整合業務的企業

例子：

*Recombine（提供生育力測試來收集DNA資料）

* BillGuard（提供移動應用程式來收集欺詐資料）

*Tesla（當駕駛員使用自動駕駛功能時收集資料）

策略＃7：公開可用的資料集

一個許多創業公司都屢試不爽的策略是在公開來源中挖掘資料。像“普通抓取”這樣的網路存檔包含多年網路爬蟲收集的免費原始資料。另外，像Yahoo或Criteo這樣的公司已經向研究界釋出過了大量資料集（雅虎釋出了13.5 TB的未壓縮資料！）。隨著最近政府公開資料庫的蓬勃發展（由奧巴馬政府引領），越來越多的資料來源正在免費公開。

幾家機器學習初創公司已經在利用公共資料了。當Oren Etzioni開始Farecast（由Microsoft於2008年收購）時，他使用了在旅遊網站抓取資訊而獲得的12,000個價格觀察樣本。同樣，SwiftKey（由Microsoft於2016年收購）在早期收集並分析了數十億網頁爬蟲資料，來建立它的語言模型。

適用物件：可以識別相關公共資料集的初創公司

例子：

* Farecast（第一版從旅遊網站爬取的資訊）

* SwiftKey（抓取網頁文字來建立語言模型）

*The Echo Nest（每天爬取數百萬個音樂相關網站）

* Jetpac（將公共Instagram資料用於其移動應用程式）

策略＃8：第三方資料許可

訪問第三方資料的另一種方法是透過外部資料提供者提供的API或透過在第三方移動應用程式中實施SDK來抓取資料（理想情況下是終端使用者同意）來得到許可。在這兩種情況下，創業公司都要支付另外一方來處理為某個目的而生成的資料，然後應用機器學習從該資料中提取新價值。

Farecast和Decide.com（均由Oren Etzioni創立）已經成功地實施了這一戰略。開放的資料平臺，如Clearbit或Factual是外部資料提供者的典範。在使用第三方資料來挖掘預測資訊的公司中，也有幾家對沖基金和演演算法交易公司（正在使用非傳統資料集，如Orbital Insight或Rezatec等創業公司的衛星資料）。

適用物件：依靠第三方資料的創業公司（如行業資料）

例子：

* Farecast（透過航空公司的資料使用許可來預測機票價格）

* Decide.com（透過電子商務的資料使用許可來預測價格）

*Building Radar（使用ESA衛星影象來監測建設專案）

戰略＃9：與大企業協作

對於初創企業，資料提供者可能是提供相關資料處理權的大客戶。在這個策略中，創業公司向客戶出售問題的解決方案（如減少欺詐），並使用客戶的資料訓練其學習演演算法。在理想情況下，從一個客戶或實體中做的資料學習可以轉移給所有其他客戶。例如在測謊領域的Sift Science和SentinelOne。

採用這種方法的難點在於如何在前期做好談判，確認透過資料學習到的資訊都歸創業公司所擁有，而資料本身仍是顧客的資產。鑒於大型公司通常具有嚴格的規則，並且對共享專有資料非常敏感，這是很容易產生分歧的地方。

適用物件：企業創業公司

例子：

*Sift Science（使用公司特有資料查詢獨特的欺詐訊號）

* SentinelOne（銷售終端保護軟體的網路安全初創公司）

* Skytree（開發用於企業使用的機器學習軟體）

策略＃10：小型收購

Matt Turck列出了許多公司的收購方式，以獲得特別相關的資料集（類似於收購有價值的專利組合）。例如，IBM Watson在2015年進行了四次與資料有關的收購，將其衛生部門轉變為世界上最大和最多樣化的健康相關資料庫之一。

由於這種方法需要資金支援，所以可能只對於擁有充裕資金的創業公司來說是可行的。

適用物件：（後期）有足夠資金的創業公司

示例：難以確定（資料是收購的唯一原因）

很可能還有其他資料採集策略在這裡沒有提到（如果是，請給我留言）。除此之外還有幾個初創公司可以用來解決資料問題的演演算法技巧（例如傳輸學習，MetaMind使用的一個技術）。

無論您採取何種策略，關鍵資訊是：獲取和擁有大型特定領域的資料集以構建高精度模型可能是創業者一開始就需要解決的最難的問題。在某些情況下，它涉及到找一個能快速解決問題但不是長久之計的方案，比如僱傭人類來假裝是人工智慧（像許多聊天機器人創業公司那樣）。在其他情況下，它要求企業大大地延長免費週期，限制測試版的公開釋出，直到機器學習的好處開始發揮作用而且客戶願意為此付費。

親愛的讀者朋友們，您們有什麼想法，請點選【寫留言】按鈕，寫下您的留言。

資料人網（http://shujuren.org）誠邀各位資料人來平臺分享和傳播優質資料知識。

公眾號推薦：

360區塊鏈，專註於360度分享區塊鏈內容。

閱讀原文，更多精彩！

分享是收穫，傳播是價值！

贊賞

長按二維碼向我轉賬

受蘋果公司新規定影響，微信 iOS 版的贊賞功能被關閉，可透過二維碼轉賬支援公眾號。

閱讀原文

即將開啟”“小程式

取消
 開啟

【資料】如何獲取高質量資料？

相關推薦

熱門標籤

熱門文章

分享創造快樂