香儂科技近期提出 Glyce，首次在深度學習的框架下使用中文字形資訊（Glyph），橫掃 13 項中文自然語言任務記錄，其中包括：(1) 字級別語言模型 (2) 詞級別語言模型 (3) 中文分詞 (4) 命名物體識別 (5) 詞性標註 (6) 句法依存分析 (7) 語意決策標註 (8) 語意相似度 (9) 意圖識別 (10) 情感分析 (11) 機器翻譯 (12) 文字分類 (13) 篇章分析。

論文連結：https://arxiv.org/abs/1901.10125

論文簡介

漢字是象形文字（logographic language），歷經幾千年的歷史演變，是當今世界上依然被使用的最古老的文字。漢字與英文有本質的區別，因為大多數漢字的起源是圖形，漢字的字形中蘊藏著豐富的語音資訊。即便是不識字的人，有時候也可以大概猜到一個字的大概意思。

相反，英文很難從字形中猜出語意，因為英文是 alphabetic language，所基於的羅馬字母反應更多的是文字的讀音，而並不是語意。

然而當今中文自然語言處理的方法，大多是基於英文 NLP 的處理流程：以詞或者字的 ID 為基準，每一個詞或者字有一個對應的向量，並沒有考慮漢語字形的資訊。

Glyce 提出了基於中文字形的語意表示：把漢字當成一個圖片，然後用摺積神經網路學習出語意，這樣便可以充分利用漢字中的圖形資訊，增強了深度學習向量的語意表達能力。Glyce 在總共 13 項、近乎所有中文自然語言處理任務上掃清了歷史記錄。

▲ 圖1：與英文不同，中文是象形文字，字形中蘊藏著豐富的語意資訊

論文詳解

理論上將中文字元當成圖片直接輸入至摺積神經網路便可以。但是這樣實現的效果並不好。Glyce 試圖從三個方面解決這個問題：

運用不同歷史時期的中文字元

如今廣泛使用的簡體中文字元是經過漫長的歷史演變而來的。簡體中文書寫更加方便，但是同時也丟失了大量的原始圖形資訊。Glyce 提出需要運用不同歷史時期的中文字元，從周商時期的金文，漢代的隸書，魏晉時期的篆書，南北朝時期的魏碑，以及繁體、簡體中文。這些不同類別的字元在語意上更全面涵蓋了語意資訊。

▲ 圖2：Glyce提出運用不同歷史時期的中文字元表示

提出符合中文字形的Tianzige（田字格）-CNN架構

Glyce 提出了一些修改 CNN 內部架構的意見，讓模型更適合處理中文字形。主要的改進集中在兩個方面，第一是為了防止過擬合，減小 CNN 中所涉及的引數量，比如將 conv 層變成 grouped conv。還有第二個比較有意思的點是最後一層透過 pooling 將影象輸入變成 2*2 的 grids。文中提到這個模型非常符合中文的田字格樣式，而田字格結構其實非常符合中文文字的書寫順序。

Multi-task Learning（多工學習）

相比於影象分類任務大多有幾百萬或者上千萬的訓練資料，漢字只有上千個。即便算上不同字型，模型只能夠見到幾萬個不同的字元影象樣本。這對影象的泛化能力提出了挑戰。

為瞭解決這個問題，Glyce 提出需要用影象分類任務作為輔助模型（auxiliary training objective）。CNN 輸出的 glyph 向量將同時被輸入到基於字元的分類任務中。實際的訓練函式是 task-specific 的損失函式和字形影象識別損失函式的線性加權：

▲ 圖3：Glyce字向量與Glyce詞向量

Glyce中文字向量

Glyce 將來自不同歷史時期的相同字元堆積形成不同的 channel，並且透過 CNN 對這些影象資訊進行編碼得到了 glyph 向量。得到的 glyph 向量輸入到影象分類模型得到字形影象識別的損失函式。然後透過 highway network 或者全連線的方式將 glyph 向量和對應的中文 char-id 向量進行結合得到了最終的 Glyce 中文字向量。

Glyce中文詞向量

由於中文的詞都可以看成是由中文的字組成，Glyce 透過充分利用組成中文詞中的漢字得到更加細粒度的詞的語意資訊。使用 Glyce 字向量的方式得到詞中的對應字的表示。

因為中文詞中字的個數的不確定性，Glyce 透過 max pooling 層對所有得到的 Glyce 字向量進行特徵的篩選，用來保持了維度的不變性。最終得到的向量透過和 word-id 向量進行拼接得到最終的 Glyce 中文詞向量。

實驗

使用 Glyce 的編碼方式分別在：（1）字級別語言模型（2）詞級別語言模型（3）中文分詞（4）命名物體識別（5）詞性標註（6）句法依存分析（7）語意決策標註（8）語意相似度（9）意圖識別（10）情感分析（11）機器翻譯（12）文字分類（13）篇章分析，共 13 個中文自然語言處理任務上進行了實驗。

實驗結果掃清了所有實驗任務的記錄，充分展示了 Glyce 在中文向量語意表示編碼的有效性和魯棒性，並且展示了 Glyce 的設計優勢。

字級別語言模型

字級別語言模型採用了 Chinese Tree-Bank 6.0 （CTB6.0）語料，並且採用 PPL（困惑度）作為最終的評價指標。透過使用 8 種歷史字型和影象分類的損失函式，基於字級別的語言模型的 PPL（困惑度）達到了 50.67。

詞級別語言模型

詞級別的語言模型採用了 Chinese Tree-Bank 6.0 （CTB6.0）語料，並且採用 PPL（困惑度）作為最終的評價指標。經過對照實驗，word-ID 向量和 glyce 詞向量在詞級別的語言模型上效果最好，PPL（困惑度）達到了 175.1。

中文分詞

中文分詞任務採用了 CTB6，PKU 和 Weibo 的資料集。Glyce 字向量結合之前最優的模型 Lattice-LSTM 在 CTB6 和 Weibo 資料上達到了新的最優的結果。在 PKU 的資料上達到了呵之前最優結果相同的結果。

命名物體識別

命名物體識別採用了 OntoNotes，MSRA 和 resume 的資料集，並且採用 F1 作為最終的評價指標。實驗結果表示，Glyce-char 模型掃清了這三個資料集的新紀錄。在 OntoNotes，MSRA，Resume 上分別超過了之前最優模型 Lattice-LSTM 0.93，0.71 和 1.21 個點。

詞性標註

詞性標註採用了 CTB5， CTB6，UD1 的資料集。單個模型使用 Glyce 詞向量在 CTB5 和 UD1 資料上分別超過之前的 state-of-the-art 1.54 和 1.36 個百分點。Glyce 單模型效果在 CTB5 和 UD1 上超過之前多模型集合的最優結果。

句法依存分析

句法依存分析採用了 Chinese Penn Treebank 5.1 的資料。Glyce 詞向量結合之前最優的 Biaffien 模型把結果在 UAS 和 LAS 資料集上和最優結果比較分別提高了 0.9 和 0.8。

語意決策標註

語意決策標註的實驗採用了 CoNLL-2009 的資料，並且採用 F1 作為最終的評價指標。最優模型 k-order pruning 和 Glyce 詞向量超過了之前最優模型 0.9 的 F1 值。

語意相似度

語意相似度的實驗採用了 BQ Corpus 的資料集，並且採用準確率和 F1 作為最終的評價指標。Glyce 字向量結合 BiMPM 模型在之前最優結果的基礎上提高了 0.97 個點，成為了新的 state-of-the-art。

意圖識別

意圖識別的任務使用了 LCQMC 的資料集進行了實驗，並且採用準確率和 F1 作為最終的評價指標。透過訓練 BiMPM 結合 Glyce 字向量在 F1 上超過了之前的最優結果 1.4，在 ACC 上超過了之前的最優結果 1.9。

情感分析

情感分析的任務採用了 Dianping，JD Full, JD Binary 三個資料集，並且採用準確率作為最終的評價指標。Glyce 字向量結合 Bi-LSTM 模型分別在這三個資料集上面取得了最優的結果。

中文-英文機器翻譯

中文-英文機器翻譯任務的訓練集來自 LDC 語料，驗證集來自 NIST2002 語料。測試集分別是 NIST2003，2004，2005，2006 和 2008，並且採用 BLEU 作為最終的評價指標。Glyce 詞向量結合 Seq2Seq+Attention 模型，測試集上 BLEU 值達到了新的最優結果。

文字分類

文字分類的任務採用了 Fudan corpus, IFeng, ChinaNews 三個資料集，並且採用準確率作為評價指標。Glyce 字向量結合 Bi-LSTM 模型在這三個資料集上分別取得了最優的結果。

篇章分析

篇章分析的任務採用了 Chinese Discourse Treebank （CDTB）的資料集，並且採用準確率作為評價指標。採用了之前 SOTA 模型 RvNN 和 Glyce 字向量，掃清了在 CDTB 資料上的準確率的最優結果。

總結

提出的 Glyce 的中文字元級表示模型，透過使用不同歷史時期的字元影象，豐富了中文字向量和詞向量的語意資訊。透過使用 Glyce 對中文字元的建模方式，我們掃清了幾乎所有的中文自然語言處理任務的 state-of-the-art。Glyce 的成功為以中文為代表的象形文字提供了新的研究方向。

文章作者

Glyce 作者數量多達九個。Wei Wu（吳煒）與 Yuxian Meng（孟昱先）併列為第一作者。Wei Wu（吳煒）在字元級語言模型任務上設計並實現了第一個 Glyce-char 模型。Yuxian Meng（孟昱先）提出了 Tianzige-CNN 結構，影象分類作為輔助標的函式和衰變 λ。Jiwei Li（李紀為）提出使用不同歷史時期的中文字元。Yuxian Meng（孟昱先）負責詞級語言模型和意圖分類的結果；Wei Wu（吳煒）負責中文分詞，命名物體識別和詞性標註的結果。Qinghong Han（韓慶宏）負責語意角色標註的結果；Xiaoya Li（李曉雅）負責中文-英文機器翻譯的結果；Muyu Li（李慕宇）負責句法依存分析和詞性標註的結果；Mei Jie（梅傑）負責篇章分析的結果；Nie Ping（聶平）負責語意相似度的結果；Xiaofei Sun（孫曉飛）負責文字分類和情感分析的結果。Jiwei Li（李紀為）為 Glyce 通訊作者。

香儂科技提出中文字型的深度學習模型Glyce，橫掃13項中文NLP記錄

論文簡介

論文詳解

實驗

總結

文章作者

相關推薦

熱門標籤

熱門文章

分享創造快樂