歡迎光臨
每天分享高質量文章

騰訊AI Lab塗兆鵬:如何提升神經網絡翻譯的忠實度 | 附PPT + 視頻

本文為 1 月 4 日,騰訊 AI Lab 高級研究員——塗兆鵬在第 22 期 PhD Talk 中的直播分享實錄。

機器翻譯是自然語言處理的經典任務之一,涉及到自然語言處理的兩個基本問題:語言理解和語言生成。這兩個問題的建模直接對應譯文的兩個評價指標:忠實度(是否表達原文的完整意思)和流利度(譯文是否流暢)。


近幾年來,神經網絡機器翻譯取得了巨大進展,成為了主流模型。神經網絡由於能緩解資料稀疏性及捕獲詞語之間的關聯,生成的譯文流利度高,這是過去二十餘年上一代統計機器翻譯一直以來的難點。但由於神經網絡目前來說仍然是個黑盒子,無法保證原文的語意完整傳遞到標的端,導致經常出現漏翻、錯翻等忠實度問題。


本次報告主要講述過去一年我們在提高神經網絡翻譯忠實度方向上的系列研究工作,從利用句法結構、擴大翻譯粒度、引入篇章信息、忠實度學習方面加強模型對原文的理解。