歡迎光臨
每天分享高質量文章

初探百度大資料分析挖掘平臺Jarvis

在人工智慧時代,企業既想通過大資料分析、挖掘技術提升效率,又被大資料量分析、機器學習挖掘等相關技術門檻阻擾,需要一款資料分析挖掘產品跨越這個鴻溝。Jarvis在這個背景下應運而生。Jarvis是支撐大資料分析挖掘應用開發的工具和平臺,定位在企業開發者和大資料分析挖掘技術之間,提供可視化交互方面的支持,使得大資料分析、挖掘技術能快速轉化為滿足企業應用場景的具體產品。

    

據瞭解,Jarvis技術實施棧縱向分層、橫向分級確保可全流程解決資料分析挖掘過程中的資料處理、計算資源、算子演算法支持、環境部署等各環節問題,同時針對用戶進行功能分級、並最大限度保持可擴展,為真正成為一款造福資料科學家、業務開發者、資料分析師、產品經理、決策分析者等各類開發用戶的產品而努力。


可視化管理資料科學全流程

一個經典的資料挖掘分析應用過程包括,資料獲取、資料預期處理、特征提取、建模開發、預測部署、投入應用。Jarvis充分調研分析開發實施人員在各環節面臨的處理場景、可能的高效、方便的工作方式,進行了抽象設計實現:

資料連接,支持結構化、非結構化多型別資料接入,支持私有資料接入、支持雲Bos、分佈式HDFS、關係型資料庫等等多型別資料源讀取及靈活掛載。

資料準備,提供支持文本、圖像型別的交互式的資料清洗、預處理工具,方便進行資料高效準備。

資料分析,支持PB級別的SQL交互式查詢分析、Spark處理;同時提供豐富的可視化資料探查工具,方便開發者獲取高價值有效樣本。

挖掘建模,內置了豐富的基礎算子演算法供開發者高效進行建模開發;同時預置了經典的垂類行業解決方案,可以低成本在匹配場景進行高效實施。

模型部署,生成模型可直接發佈、部署,並支持動態熱加載。提供了常用模型評價指標的效果監控功能供一鍵選擇監控、支持自由擴展。

流程監控,開發者進行的全工作流實現自動Track,新資料可自動觸發重跑全流程。



雲原生服務

在資料分析挖掘全流程及服務過程中,不同的場景、不同的資料、不同的處理階段、不同的開發者對於環境的需求、對於資源的需求多種多樣,這就需要資料分析挖掘平臺的資源(包含開發環境資源)管理要能靈活接入、彈性拉伸、擴展方便,確保穩定及資源利用高效。Jarvis採用了雲原生服務架構的方式實現。


自動機器學習AutoML

策略模型研發人員大量的時間花費在選取不同的特征資料、進行不同的演算法選擇嘗試、引數調優中,最終獲得一個高效的模型。AutoML理論上可通過設置自動嘗試多資料特征、多演算法、測試完全不同的模型架構,然後與標的相匹配,給出最終解決問題的方案。


行業解決方案

同行業的不同企業往往存在共性的資料分析挖掘場景,例如:電力行業,用電量預測;工業物理網類,設備故障檢測、故障預測等。這些同類場景要解決的問題類似、要分析的資料類似,因此可以抽象通用的行業解決方案在同類場景下復用、快速投入應用。對於深層次的資料挖掘開發者,同樣有大量通用的演算法、算子庫可以相互復用,提升開發效率。Jarvis從基礎演算法、通用模型、垂類解決方案分層內置能力並不斷擴展集成,為不同場景需求的開發者用戶提供了高效復用能力。


百度開發者大會期間,Jarvis通過點石-大資料眾智平臺(dianshi.baidu.com, DataLab板塊)邀測了第一批用戶進行增強版基礎開發環境的使用(內置了豐富的算子演算法庫及百度AI開放接口),受到用戶的一致好評。


敬請期待Jarvis後續的全面正式發佈、邀測!

赞(0)

分享創造快樂