歡迎光臨
每天分享高質量文章

香儂科技提出中文字型的深度學習模型Glyce,橫掃13項中文NLP記錄

香儂科技近期提出 Glyce,首次在深度學習的框架下使用中文字形資訊(Glyph),橫掃 13 項中文自然語言任務記錄,其中包括:(1) 字級別語言模型 (2) 詞級別語言模型 (3) 中文分詞 (4) 命名物體識別 (5) 詞性標註 (6) 句法依存分析 (7) 語意決策標註 (8) 語意相似度 (9) 意圖識別 (10) 情感分析 (11) 機器翻譯 (12) 文字分類 (13) 篇章分析。

論文連結:https://arxiv.org/abs/1901.10125

 

論文簡介

 

漢字是象形文字(logographic language),歷經幾千年的歷史演變,是當今世界上依然被使用的最古老的文字。漢字與英文有本質的區別,因為大多數漢字的起源是圖形,漢字的字形中蘊藏著豐富的語音資訊。即便是不識字的人,有時候也可以大概猜到一個字的大概意思。

 

相反,英文很難從字形中猜出語意,因為英文是 alphabetic language,所基於的羅馬字母反應更多的是文字的讀音,而並不是語意。 

 

然而當今中文自然語言處理的方法,大多是基於英文 NLP 的處理流程:以詞或者字的 ID 為基準,每一個詞或者字有一個對應的向量,並沒有考慮漢語字形的資訊。 

 

Glyce 提出了基於中文字形的語意表示:把漢字當成一個圖片,然後用摺積神經網路學習出語意,這樣便可以充分利用漢字中的圖形資訊,增強了深度學習向量的語意表達能力。Glyce 在總共 13 項、近乎所有中文自然語言處理任務上掃清了歷史記錄。 

 

 圖1:與英文不同,中文是象形文字,字形中蘊藏著豐富的語意資訊

論文詳解

 

理論上將中文字元當成圖片直接輸入至摺積神經網路便可以。但是這樣實現的效果並不好。Glyce 試圖從三個方面解決這個問題: 

 

運用不同歷史時期的中文字元

 

如今廣泛使用的簡體中文字元是經過漫長的歷史演變而來的。簡體中文書寫更加方便,但是同時也丟失了大量的原始圖形資訊。Glyce 提出需要運用不同歷史時期的中文字元,從周商時期的金文,漢代的隸書,魏晉時期的篆書,南北朝時期的魏碑,以及繁體、簡體中文。這些不同類別的字元在語意上更全面涵蓋了語意資訊。

 圖2:Glyce提出運用不同歷史時期的中文字元表示

 

提出符合中文字形的Tianzige(田字格)-CNN架構

 

Glyce 提出了一些修改 CNN 內部架構的意見,讓模型更適合處理中文字形。主要的改進集中在兩個方面,第一是為了防止過擬合,減小 CNN 中所涉及的引數量,比如將 conv 層變成 grouped conv。還有第二個比較有意思的點是最後一層透過 pooling 將影象輸入變成 2*2 的 grids。文中提到這個模型非常符合中文的田字格樣式,而田字格結構其實非常符合中文文字的書寫順序。

 

 

Multi-task Learning(多工學習)

 

相比於影象分類任務大多有幾百萬或者上千萬的訓練資料,漢字只有上千個。即便算上不同字型,模型只能夠見到幾萬個不同的字元影象樣本。這對影象的泛化能力提出了挑戰。

 

為瞭解決這個問題,Glyce 提出需要用影象分類任務作為輔助模型(auxiliary training objective)。CNN 輸出的 glyph 向量將同時被輸入到基於字元的分類任務中。實際的訓練函式是 task-specific 的損失函式和字形影象識別損失函式的線性加權:

 

 圖3:Glyce字向量與Glyce詞向量

 

Glyce中文字向量

 

Glyce 將來自不同歷史時期的相同字元堆積形成不同的 channel,並且透過 CNN 對這些影象資訊進行編碼得到了 glyph 向量。得到的 glyph 向量輸入到影象分類模型得到字形影象識別的損失函式。然後透過 highway network 或者全連線的方式將 glyph 向量和對應的中文 char-id 向量進行結合得到了最終的 Glyce 中文字向量。

 

Glyce中文詞向量 

 

由於中文的詞都可以看成是由中文的字組成,Glyce 透過充分利用組成中文詞中的漢字得到更加細粒度的詞的語意資訊。使用 Glyce 字向量的方式得到詞中的對應字的表示。

 

因為中文詞中字的個數的不確定性,Glyce 透過 max pooling 層對所有得到的 Glyce 字向量進行特徵的篩選,用來保持了維度的不變性。最終得到的向量透過和 word-id 向量進行拼接得到最終的 Glyce 中文詞向量。

實驗

 

使用 Glyce 的編碼方式分別在:(1)字級別語言模型(2)詞級別語言模型(3)中文分詞(4)命名物體識別(5)詞性標註(6)句法依存分析(7)語意決策標註(8)語意相似度(9)意圖識別(10)情感分析(11)機器翻譯(12)文字分類(13)篇章分析,共 13 個中文自然語言處理任務上進行了實驗。

 

實驗結果掃清了所有實驗任務的記錄,充分展示了 Glyce 在中文向量語意表示編碼的有效性和魯棒性,並且展示了 Glyce 的設計優勢。

 

字級別語言模型

 

 

字級別語言模型採用了 Chinese Tree-Bank 6.0 (CTB6.0)語料,並且採用 PPL(困惑度)作為最終的評價指標。透過使用 8 種歷史字型和影象分類的損失函式,基於字級別的語言模型的 PPL(困惑度)達到了 50.67。

 

詞級別語言模型

 

 

詞級別的語言模型採用了 Chinese Tree-Bank 6.0 (CTB6.0)語料,並且採用 PPL(困惑度)作為最終的評價指標。經過對照實驗,word-ID 向量和 glyce 詞向量在詞級別的語言模型上效果最好,PPL(困惑度)達到了 175.1。

 

中文分詞

 

 

中文分詞任務採用了 CTB6,PKU 和 Weibo 的資料集。Glyce 字向量結合之前最優的模型 Lattice-LSTM 在 CTB6 和 Weibo 資料上達到了新的最優的結果。在 PKU 的資料上達到了呵之前最優結果相同的結果。

 

命名物體識別

 

 

命名物體識別採用了 OntoNotes,MSRA 和 resume 的資料集,並且採用 F1 作為最終的評價指標。實驗結果表示,Glyce-char 模型掃清了這三個資料集的新紀錄。在 OntoNotes,MSRA,Resume 上分別超過了之前最優模型 Lattice-LSTM 0.93,0.71 和 1.21 個點。

 

詞性標註

 

 

詞性標註採用了 CTB5, CTB6,UD1 的資料集。單個模型使用 Glyce 詞向量在 CTB5 和 UD1 資料上分別超過之前的 state-of-the-art 1.54 和 1.36 個百分點。Glyce 單模型效果在 CTB5 和 UD1 上超過之前多模型集合的最優結果。 

 

句法依存分析

 

 

句法依存分析採用了 Chinese Penn Treebank 5.1 的資料。Glyce 詞向量結合之前最優的 Biaffien 模型把結果在 UAS 和 LAS 資料集上和最優結果比較分別提高了 0.9 和 0.8。

 

語意決策標註

 

語意決策標註的實驗採用了 CoNLL-2009 的資料,並且採用 F1 作為最終的評價指標。最優模型 k-order pruning 和 Glyce 詞向量超過了之前最優模型 0.9 的 F1 值。

 

語意相似度

 

 

語意相似度的實驗採用了 BQ Corpus 的資料集,並且採用準確率和 F1 作為最終的評價指標。Glyce 字向量結合 BiMPM 模型在之前最優結果的基礎上提高了 0.97 個點,成為了新的 state-of-the-art。

 

意圖識別

 

 

意圖識別的任務使用了 LCQMC 的資料集進行了實驗,並且採用準確率和 F1 作為最終的評價指標。透過訓練 BiMPM 結合 Glyce 字向量在 F1 上超過了之前的最優結果 1.4,在 ACC 上超過了之前的最優結果 1.9。

 

情感分析

 

 

情感分析的任務採用了 Dianping,JD Full, JD Binary 三個資料集,並且採用準確率作為最終的評價指標。Glyce 字向量結合 Bi-LSTM 模型分別在這三個資料集上面取得了最優的結果。

 

中文-英文機器翻譯

 

 

中文-英文機器翻譯任務的訓練集來自 LDC 語料,驗證集來自 NIST2002 語料。測試集分別是 NIST2003,2004,2005,2006 和 2008,並且採用 BLEU 作為最終的評價指標。Glyce 詞向量結合 Seq2Seq+Attention 模型,測試集上 BLEU 值達到了新的最優結果。

 

文字分類

 

 

文字分類的任務採用了 Fudan corpus, IFeng, ChinaNews 三個資料集,並且採用準確率作為評價指標。Glyce 字向量結合 Bi-LSTM 模型在這三個資料集上分別取得了最優的結果。

 

篇章分析

 

 

篇章分析的任務採用了 Chinese Discourse Treebank (CDTB)的資料集,並且採用準確率作為評價指標。採用了之前 SOTA 模型 RvNN 和 Glyce 字向量,掃清了在 CDTB 資料上的準確率的最優結果。

 

總結

提出的 Glyce 的中文字元級表示模型,透過使用不同歷史時期的字元影象,豐富了中文字向量和詞向量的語意資訊。透過使用 Glyce 對中文字元的建模方式,我們掃清了幾乎所有的中文自然語言處理任務的 state-of-the-art。Glyce 的成功為以中文為代表的象形文字提供了新的研究方向。

 

文章作者

Glyce 作者數量多達九個。Wei Wu(吳煒)與 Yuxian Meng(孟昱先)併列為第一作者。Wei Wu(吳煒)在字元級語言模型任務上設計並實現了第一個 Glyce-char 模型。Yuxian Meng(孟昱先)提出了 Tianzige-CNN 結構,影象分類作為輔助標的函式和衰變 λ。Jiwei Li(李紀為)提出使用不同歷史時期的中文字元。Yuxian Meng(孟昱先)負責詞級語言模型和意圖分類的結果;Wei Wu(吳煒)負責中文分詞,命名物體識別和詞性標註的結果。Qinghong Han(韓慶宏)負責語意角色標註的結果;Xiaoya Li(李曉雅)負責中文-英文機器翻譯的結果;Muyu Li(李慕宇)負責句法依存分析和詞性標註的結果;Mei Jie(梅傑)負責篇章分析的結果;Nie Ping(聶平)負責語意相似度的結果;Xiaofei Sun(孫曉飛)負責文字分類和情感分析的結果。Jiwei Li(李紀為)為 Glyce 通訊作者。

贊(0)

分享創造快樂