歡迎光臨
每天分享高質量文章

挑戰時序關係型多表資料難題,KDD CUP首屆AutoML競賽啟動

近日,國際資料挖掘頂級會議 KDD (ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING) 官網正式公佈了 KDD Cup 2019 三項重大比賽,其中首次引入的 AutoML 挑戰賽受到眾多學術及工業界專業人士的密切關註。作為 KDD Cup 歷史上的首次 AutoML 挑戰賽,第四範式將聯手 ChaLearn、微軟共同承擔此次大賽重任,併為此次比賽設置了“史上”難度最高的比賽專案。

第四範式、ChaLearn 和微軟將聯合主辦 KDD Cup 2019 AutoML 挑戰賽,這是 KDD Cup 22 年曆史中首次舉辦 AutoML 挑戰賽,同時也是歷史上首個基於時序關係型資料的 AutoML 比賽。

 

比賽鏈接

大賽官網:

https://www.4paradigm.com/competition/kddcup2019

 

報名地址:

https://competitions.codalab.org/competitions/21948

比賽背景

時序關係型資料在在線廣告、推薦系統、金融市場分析、醫療等應用場景中非常常見,人們往往需要利用這樣的資料去構建機器學習模型,並應用機器學習模型提升對應業務的效果。以在線廣告點擊率預測問題為例,每個樣本就是向用戶展示廣告,樣本標記為用戶是否點擊廣告。因為是實際的服務系統,所有樣本都是時序產生。

 

時序信息不僅用來表示事件的時間順序,合理的利用可能還可以提高機器學習模型的效果。資料科學家可以利用這些時序信息生成時間特征,使資料更具預測性。同時,在線廣告系統中除了表示廣告展示和點擊行為的樣本主表之外,還可能會使用相關表來儲存用戶、廣告和廣告投放者的特性,這些輔助信息可以進一步豐富資料,提高廣告點擊率預測模型的性能。

 

此外,當知道不同表之間的關係時,資料科學家可以將不同表結合,產生有意義的聯繫,進一步提高預測能力。與一般的用來建模的單張樣本表的資料相比,時序關係型資料通常包含更多有用的特殊信息,可以利用這些信息來進一步提高機器學習性能。

 

在傳統的機器學習應用中,需要經驗豐富的專家才能從時序關係型資料中挖掘出有效的時序信息,並加以利用提升機器學習模型的效果。即使具備較深的知識儲備,專家也需要通過不斷的嘗試和試錯,才能構建出有價值的時序特征,並且利用好多個相關聯表來提升機器學習模型的性能。此外,選擇合適的機器學習模型和超引數也需要強大的機器學習專業知識作為支撐。

 

因此,傳統機器學習極為耗費人力、技術門檻高,也讓沒有機器學習背景的人無法高效利用時序關係型資料。AutoML 近年來成為了機器學習重要的研究方向。該技術在模型選擇、神經架構搜索、特征工程等方面取得了較大的成功,大幅降低了機器學習的應用門檻,讓沒有機器學習背景的人同樣可以輕鬆使用。

 

因此,為了讓更多的科學家關註 AutoML 領域,讓更多的非專業人士能夠利用時序關係型資料輕鬆地構建有效的機器學習模型,與以往的僅關註單樣本表的 AutoML 挑戰賽不同,第四範式和 ChaLearn 決定舉辦專門針對時序關係型資料的 AutoML 挑戰賽,希望讓更多的資料科學家和開發者加入其中,集思廣益,從而讓 AutoML 更好的利用時序關係型資料,提升模型的預測性能,讓 AutoML 解決方案能夠更加符合實際應用的需求。

關於比賽

競賽者將利用時序關係資料,設計一個能夠自主(無人為干預)實現監督學習的AutoML計算機程式。該比賽將聚焦在二分類問題,且時序關係資料均來自實際業務場景。根據大多數實際應用的時間屬性,資料集按時間順序劃分為訓練集和測試集。訓練集和測試集都由一個主表、一組相關表和一個關係圖組成: 

 

  • 主表包含帶有樣本標記、部分特征和時序標簽的實體,用於二分類; 

  • 相關表包含了主表中實體的重要輔助信息,可用於提高預測效果。相關表中的欄位可能含有時間標簽,意味著該表中的信息與時間有關。 

  • 不同表中資料之間的關係用關係圖描述。需要註意的是,任何兩個表(主表或相關表)都可以有一個關係,任何一對錶最多只能有一個關係。主辦方保證訓練集和測試集的關係圖是相同的。 

 

參賽者需要提交通過主表、相關表和關係圖自動構建機器學習模型的 AutoML 方案。一旦經過訓練,模型將以測試主表(不包括樣本標記)、相關表和關係圖作為輸入,並預測測試集的樣本標記。參賽者提交的方案將在受限制的計算資源和時間內進行測試。 

 

為了讓參賽者能夠更好的開發並評估方案,我們提供了 10 個時序關係資料集,其中 5 個公共資料集,5 個私有資料集。

比賽挑戰

參賽者設計的 AutoML 方案中,應具備高效發現時序特征、捕獲多個表之間信息的能力,並以全自動的方式構建機器學習模型。具體的挑戰如下: 

 

  • 如何自動生成有效的時序信息?

  • 如何將多個相關表信息有效整合?

  • 如何解決資料分佈隨時序緩慢變化的問題?

  • 如何自動捕獲有意義的表間聯繫?

  • 如何自動高效地選擇合適的機器學習模型和超引數?

  • 如何讓方案更通用,即如何使其適用於未知的任務?

  • 如何保持計算和記憶體成本可接受?

比賽階段

Feedback 階段:即反饋階段。在此階段,參賽者可以在五個公共資料集上進行訓練,開發 AutoML 方案。參賽者可以進行有限數量的提交,並獲得作為反饋的所有五個公共資料集的測試資料的性能。參賽者可以下載有標記的訓練資料集和未標記的測試資料集。因此,參賽者可以在線下準備他們的代碼並提交。該階段最後的代碼提交將最終作為下一階段進行盲測的代碼。

 

Check 階段:即校驗階段。該階段將在五個私有資料集上對第一階段的最後一次提交的代碼進行盲測,確保提交的方案順利運行,不會出現例如超時或者記憶體上限溢位等問題,但參賽者無法看到具體的結果,所有小組具備一次更新代碼的機會,以保證在最終階段正確的運行自己的代碼。

 

AutoML 階段:即盲試階段。該階段將測試方案在私有資料集上的性能。參賽者的代碼將在無需人為干預情況下完成訓練和預測。AUC 作為評價指標,最終將根據五個私有資料集的平均排名進行評分。若最終比分相同,則優先考慮可解釋性更好的方案,可解釋性將由專家團隊評審。 

 

以上三個階段的計算及記憶體資源均有所限制,因此方案應兼顧效果及效率。

時間表

2019 年 4 月 1 日:比賽開始,發佈公共資料集。參與者可以開始提交代碼併在排行榜上獲得即時反饋信息。 

 

2019 年 6 月 27 日:Feedback 階段結束,Feedback 階段的代碼自動遷移到 Test 階段。 

 

2019 年 7 月 7 日:Check 階段結束,主辦方開始代碼驗證。 

 

2019 年 7 月 11 日:提交報告的截止日期。 

 

2019 年 7 月 16 日:AutoML 階段結束,開始評審流程。 

 

2019 年 7 月 20 日:宣佈 KDD Cup 冠軍。 

 

2019 年 8 月 4 日:在 KDD 上舉辦頒獎儀式。

獎金

第一名:15000 美元

第二名:10000 美元

第三名:5000 美元

第 4-10 名:每人 500 美元

 

報名資質

  • 本次競賽將在 CodaLab 競賽平臺上進行。

  • 本次競賽對所有感興趣的研究人員、專家和學生完全開放,競賽組委會成員及相關人員不得參賽。

  • 參賽者可以由一人或多人組成的團隊提交方案。

  • 每個團隊都需要指定領隊,負責與組織者溝通。

  • 一個人只能加入一個團隊。

  • 根據 AutoML 階段的最終得分來選出比賽的勝利者。

  • 若最終比分相同,則優先考慮解釋性更好的方案。

  • 每個參賽團隊都必須提供描述其最終解決方案的簡短報告(情況說明書)。

  • 通過參加本次競賽,您將授權組織者權利,對您提交的作品以進行評估和賽後研究。

  • 所有參賽隊伍必須在 Check 階段兩周前至少有一次成功的代碼提交,否則視為無效隊伍,不參與最終評測。

大賽主辦方

第四範式 

 

第四範式是國際領先的企業級人工智慧技術與服務提供商,核心業務是利用機器學習技術,幫助企業提升效率、降低風險,獲得更大的商業價值。其核心產品——企業級人工智慧 PaaS 平臺“第四範式先知”,幫助企業級用戶及合作伙伴構建從資料到 AI 產業落地的閉環,做出更智慧、更快速的商業決策。以平臺推動人工智慧快速、規模化產業落地的同時,第四範式也深耕人工智慧基礎性研究領域。 

 

在 AuroML 方面,第四範式已自主研發了傳統機器學習、深度學習等多方向的自動化技術,囊括了自動特征組合(FeatureGo)、自動時序特征(TemporalGo)、自動深度稀疏網絡DSN(Deep Sparse Network)、Auto-SSL(自動半監督學習)、AutoCV、AutoNLP、多保真度優化等多項 AutoML 支撐技術,併成功應用在金融反欺詐、個性化推薦等多個業務場景中,讓企業普通開發人員取得了接近甚至超過資料科學家的業務效果。 

 

此外,第四範式多次獲得 PAKDD、NeurIPS、KDD 等頂級學術會議的 AutoML 比賽主辦權,併在 PRICAI 2018 上舉辦 AutoML Workshop: 

 

2018.4——PAKDD 2018 AutoML Challenge 

https://www.4paradigm.com/competition/pakdd2018 

 

2018.12——NeurIPS 2018 AutoML Challenge 

https://www.4paradigm.com/competition/nips2018 

 

2019.4——PAKDD 2019 AutoML Challenge 

https://www.4paradigm.com/competition/pakdd2019 

 

2019.8——KDD Cup 2019 AutoML Challenge 

https://www.4paradigm.com/competition/kddcup2019 

 

2019.12——2019 AutoDL Challenge 

https://autodl.chalearn.org/ 

 

ChaLearn 

 

Chalearn(http://chalearn.org)是 AutoML 領域最權威的學術組織,在組織學術挑戰賽方面擁有豐富的經驗。ChaLearn 囊括了資料收集程式、評估協議、新穎的挑戰場景(如競賽)、賽事組織者培訓、挑戰賽分析、賽事宣傳等內容,積極推動 AutoML 的前沿技術的發展。

KDD Cup 介紹

KDD Cup 是由 ACM 的資料挖掘及知識發現專委會(SIGKDD)主辦的資料挖掘研究領域的國際頂級賽事,同時也是資料挖掘國際頂級會議 KDD 上的重頭戲,至今已有 22 年曆史。作為目前資料挖掘領域最有影響力、最高水平的國際頂級賽事,KDD Cup 每年都會吸引來自世界各地資料挖掘領域的頂尖專家、學者和工程師參賽,因此也有“大資料奧運會”之名。

赞(0)

分享創造快樂