歡迎光臨
每天分享高質量文章

TPAMI 2018論文概述 | 在全景視頻中預測頭部運動:一種深度強化學習方法

作者丨徐邁、宋宇航、王健伊、樵明朗 等

學校丨北京航空航天大學本科生

研究方向丨全景視頻與強化學習


本文概述了 2018 年 8 月發表在 IEEE TPAMI 期刊的論文 Predicting Head Movement in Panoramic Video: A Deep Reinforcement Learning Approach。在此論文中,北京航空航天大學本科生宋宇航、王健伊、樵明朗等及其導師徐邁、王祖林,提出了一種基於強化學習的全景視頻頭部運動預測方法,實現了在離線和在線兩種設定下對人類觀看全景視頻時視野(即:頭部運動)預測。論文相關資料庫及代碼均已開源。



■ 論文 | Predicting Head Movement in Panoramic Video: A Deep Reinforcement Learning Approach

■ 鏈接 | https://www.paperweekly.site/papers/2417

■ 原始碼 | https://github.com/YuhangSong/DHP

■ 資料 | https://github.com/YuhangSong/DHP

背景


在觀看全景視頻的時候, 人們通過對頭部運動(HM)的控制使自己能夠自由地控制視野(FoV),從而產生身臨其境的交互式體驗。因此,HM 在人類對全景視頻的註意力建模中起著關鍵作用。


本文首次建立了一個收集全景視頻註意力的資料庫(圖 1),採集了被試者在全景視頻序列上的 HM 位置。從該資料庫中,論文發現 HM 資料在不同被試者中高度一致。


 圖1. 本文首次建立的一個收集全景視頻註意力的資料庫(部分)


據此,論文首次提出應用深度強化學習(DRL),最大化智慧體與人類行為的一致性,進而來預測 HM 位置是一個合理的預測全景視頻註意力模型的方法。


根據論文的研究結果,論文提出了一種基於 DRL 的 HM 預測方法(DHP),該方法有離線和在線兩個版本(圖 2),分別稱為離線-DHP 和在線-DHP。


在離線-DHP 中,論文運行多個 DRL 工作流以確定每幀可能的 HM 位置。然後,生成熱點圖作為 offline-DHP 的預測輸出。在在線-DHP 中,論文給定當前觀察到的 HM 位置,來估計被試者的下一個 HM 位置。


最後,實驗結果驗證了論文的方法可有效地預測全景視頻的註意力,並且離線-DHP 模型可以有效地提升在線-DHP 的性能。


 圖2. 全景視頻註意力的離線和在線模型

離線-DHP


論文首先提出了離線-DHP 演算法。因為觀看者根據全景視頻內容控制頭部運動、產生頭動軌跡,論文提出的離線-DHP 方法通過預測多個智慧體(agent)的頭動軌跡產生全景視頻的顯著性熱點圖(圖 3)。

 圖3. 離線-DHP演算法的整體框架


首先,基於論文的資料庫中,我們發現:


1. 不同觀看者的頭動軌跡高度一致;


2. 觀看者的視野以較高概率出現在視頻中心(精度、維度均為 0);


3. 觀看者下一時刻的觀看位置可以由當前時刻觀看位置預測。


根據這些發現,論文提出的離線-DHP 方法通過強化學習預測多個觀看者的頭動幅度和方向來預測下一時刻的頭部位置。在訓練中,建立強化學習的回報函式(reward function),旨在衡量的智慧體和觀看者頭動之間的行為差異,即智慧體的頭動與人類頭動位置的一致性。進而通過深度強化學習獲得頭動預測模型;在多工作流的頭動模型下,可產生多個頭動軌跡,進而生成熱點圖和顯著性圖。


在線-DHP

接下來,論文提出了在線-DHP 演算法。在線-DHP 演算法旨在根據某個特定觀看者的歷史頭動軌跡預測其下一幀的頭動位置。整個過程分為訓練和預測兩個階段。


首先,利用歷史軌跡對深度強化學習網絡的引數進行微調,之後利用訓練好的深度強化學習網絡來預測下一幀的頭動位置。其在線-DHP 包括訓練和預測兩個步驟,流程圖如圖 4 所示。


 圖4. 在線-DHP演算法的整體框架


實驗

對於離線-DHP,選用了 15 個視頻作為測試集。論文采用了 3 個常用的標準對預測結果進行評估:CC、NSS、sAUC。實驗結果表明論文提出的方法在 3 個標準下的表現都明顯優於對比演算法。 


此外,論文展示的主觀實驗結果表明:論文提出的 DHP 演算法生成的頭動熱點圖與真實的人類頭動熱點圖接近。可見,離線-DHP 能夠更有效的預測不同人在觀看全景視頻時的頭動位置。


對於在線-DHP,論文對比了當前最新的演算法。實驗結果表明:論文提出的在線-DHP 優於其他比對演算法。此外,實驗還驗證了使用離線-DHP 的模型對在線 DHP 演算法進行初始化,可有效提升全景視頻的在線頭動位置預測的精度。


綜上所述,論文提出的方法可有效地在線/離線預測人類觀看全景視頻的頭動位置(即:視野)。


結論

本文是最早揭示人類觀看全景視頻機理的工作之一,在未來,可提升全景視頻的壓縮、渲染等處理任務的有效性,有著廣泛的應用場景。


點擊以下標題查看更多論文解讀: 


#投 稿 通 道#

 讓你的論文被更多人看到 


如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

來稿標準:

• 稿件確系個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接 

• PaperWeekly 預設每篇文章都是首發,均會添加“原創”標誌


? 投稿郵箱:

• 投稿郵箱:hr@paperweekly.site 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通



?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關註」訂閱我們的專欄吧

關於PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 | 閱讀原文 | 下載論文 & 原始碼

赞(0)

分享創造快樂