線下沙龍 × 北京 | 最in強化學習 + NLP技術分享會，你來不來？-知識星球

在過去一年裡

PaperWeekly陸續走過了一些城市

我們在這些線下沙龍中受益良多

見到了許多可愛的讀者

收集了許多有意義的反饋

我們非常珍惜這些機會

也希望未來能將觸覺

延伸到更多城市和人群

就在本週日

2018年第一場線下學術沙龍

即將搶先登陸北京

這次，我們決定來點重量級的

等待你的不僅有

“強化學習在NLP中的應用”技術乾貨

還有你最想見到的嘉賓

帝都的NLPer們，準備好了嗎？

▼

1 黃民烈

清華大學計算機系副教授，博士生導師。研究興趣主要集中在人工智慧、深度學習、強化學習，自然語言處理如自動問答、人機對話系統、情感與情緒智慧等。

已超過 50 篇 CCF A/B 類論文發表在 ACL、IJCAI、AAAI、EMNLP、KDD、ICDM、ACM TOIS、Bioinformatics、JAMIA 等國際頂級和主流會議及期刊上。曾擔任多個國際頂級會議的領域主席或高階程式委員，如 IJCAI 2018、IJCAI 2017、ACL 2016、EMNLP 2014/2011，IJCNLP 2017 等，擔任 ACM TOIS、TKDE、TPAMI、CL 等頂級期刊的審稿人。作為負責人或學術骨幹，負責或參與多項國家 973、863 子課題、多項國家自然科學基金，並與國內外知名企業如谷歌、微軟、三星、惠普、美孚石油、斯倫貝謝、阿裡巴巴、騰訊、百度、搜狗、美團等建立了廣泛的合作。獲得專利授權近 10 項，其中 2 項專利技術授權給企業應用。

自然語言處理中的深度強化學習應用

以 Alpha GO/Zero 為代表的深度強化學習在許多應用中取得了前所未有的成功。演講者將重點介紹深度強化學習在自然語言處理中如何處理非直接訊號的弱監督學習問題，介紹如何利用有限的、弱的、非直接的監督訊號實現學習標的。

包括幾個方面的工作：僅依賴類別標記的監督訊號，從無結構文字中的探索任務相關的文字結構（structure discovery）；噪聲文字資料中進行樣本去噪（data denoising）以獲得更好的關係抽取效能；在大型的線上系統中，如何利用使用者的隱式反饋實現多場景的聯合最佳化。

這些工作具有的共性是：在無直接監督資訊、弱訊號場景中，利用強化學習的試錯和機率探索能力，透過編碼先驗或領域知識，達到學習標的。演講者也將分享強化學習應用中的一些經驗和教訓。

2 李紀為

博士，香儂科技創始人 & CEO。本科畢業於北京大學生命科學學院，博士畢業於斯坦福大學計算機學院，研究領域為自然語言處理、深度學習。他是斯坦福大學計算機系歷史上第一個三年取得博士學位的研究生。博士期間曾經在頂級會議 ACL、EMNLP、ICLR 等發表文章 20 餘篇。2017 年創立 AI+Fintech 初創公司香儂科技，獲得紅杉資本數千萬天使輪融資

生成對話中的強化學習

在這個 Talk 中，嘉賓將討論兩個生成對話中強化學習的應用：

1. 透過模擬兩個 Agent 的聊天獲得更持久的、穩定的對話策略；

2. 將對抗學習引入到對話生成模型中：因為對抗學習判別器的反饋對於生成模型來說是不可求導的，所以只能透過強化學習的手段將判別器的反饋傳遞給生成模型，這裡將重點討論如何訓練一個穩定的基於強化學習的對抗網路對話模型。