歡迎光臨
每天分享高質量文章

讓機器認知中文物體 — 復旦大學知識工場釋出中文物體識別與連結服務

一、什麼是物體識別與連結

      近年來,如何透過知識圖譜讓機器實現自然語言理解受到越來越多的關註。其中,識別文字中的物體,並將它們連結到知識庫中,是讓機器理解自然語言的第一步,也是至關重要的一步。比如,當智慧問答系統在回答“李娜在哪一年拿到澳網冠軍?”這一問題時,第一步就是識別併在知識庫中找到網球運動員李娜這一物體,才能繼續從知識庫中找到相關資訊並作出回答。如果識別出錯或者沒有將“李娜”正確連結到網球運動員李娜這一物體的話,系統對於這個問題的回答必然出錯。根據我們的調研,目前面向通用領域的中文物體識別與連結服務,能夠公開可用且取得滿意效果的還不多見。

      物體識別與連結的問題定義如下:給定一個知識庫K,其包含一個物體集合E以及相應已知的物體同義詞集合M;對於一段輸入文字t,識別t中的所有指代物體的欄位m∈M,並將它們連結到正確的知識庫中的物體e∈E。

圖1 物體連結示例

      圖1是一個例子,給定知識庫CN-DBpedia,對於輸入文字“李娜唱的青藏高原很好聽”,可以識別出文本中指代物體的欄位“李娜”和“青藏高原”,然後分別把他們連結到CN-DBpedia中的物體“李娜(流行歌手、佛門女弟子)”和“青藏高原(張千一作詞、作曲歌曲)”。

      相對於其他的物體識別與連結,這個任務有如下特點:首先,知識庫K為通用知識庫,即其物體集合E很大(數量為千萬級),並且包含來自各個領域的物體。其次,輸入文字t通常為短文字,大多數只包含一個物體。

二、物體識別與連結的技術挑戰

1、物體識別和連結的基本挑戰

      物體識別需要識別文字中指代的物體的片段。通常有兩種解決方案,第一種是利用知識庫的同義詞庫識別所有可能為物體的欄位,然後進行篩選判斷;第二種是對文字做語法分析,透過詞本身及其語法特徵識別物體。對於第一種方案,需要均衡考慮候選片段為物體的可能性和片段之間相互改寫與選擇的問題,比如“吳彥祖國籍是什麼”,應該正確地識別“吳彥祖”和“國籍”,而不是識別“祖國”;對於第二種方案,若要達到很好的效,合適的特徵提取以及足夠的訓練樣本是必不可少的。

      物體識別出來的物體名通常是有歧義的,也就是說一個物體名通常會指代知識庫中的多個物體,比如之前提到的“李娜”。如何將物體名連結到知識庫中的正確物體是物體連結需要解決的問題。解決這個問題的關鍵在於如何有效地利用物體本身的屬性以及物體名出現時背景關係的資訊。

      以上為通用物體識別與物體連結共同的挑戰。這個任務具有的一些特點,還導致了一些額外的挑戰。

圖2 在通用領域的知識庫CN-DBpedia裡,物體的歧義性很大

2、通用領域的物體識別與連結的挑戰

      以通用領域的知識庫CN-DBpedia為知識庫進行的物體連結會帶來額外的挑戰。通用領域的物體識別與連結具有兩個主要特點:第一個特點是物體量巨大。這不僅對候選物體增加了大量噪音,而且也需要對物體進行相關領域判斷,這樣一來,物體識別與連結就需要更多的考慮,如圖2所示,在CN-DBpedia裡,“北京”除了中國首都之外,還能指代一首歌、一張專輯、一首詩、一部小說和一個小行星的名字。第二個特點是物體界限模糊。通用知識庫幾乎包含了所有詞,包括一些平凡的物體,比如“圖片”、“鋼筆”,還有一些成語俗語,比如“危言聳聽”、“厚德載物”等等。但這些物體在實際應用中通常是不希望被識別和鏈接出來的,這對物體詞的判斷帶來了很大的難度。

3、短文字的物體識別與連結的挑戰

      短文字輸入進行的物體連結也會帶來額外的挑戰。在大多數情況下,輸入文字只是輸入一個句子,有時候甚至是一個片語。與針對長文字或者檔案的物體識別與連結方法不同的是,短文字輸入的背景關係資訊非常缺乏,並且幾乎沒有共現物體的資訊。比如“冰與火之歌有多少捲”,在背景關係無其他物體的語境中要識別並將“冰與火之歌”連結到小說而不是電視劇。但是現實生活中,大部分的文字資訊都是以短文字的方式存在,這就需要著重發掘詞語與物體的關係,從而從極少的文字中提取到語意資訊

4、中文物體識別與連結的挑戰

      現有的大量物體識別與連結工作是基於英文的,把基於英文的方法應用到中文中是有很大難度的。首先,在特徵提取方面,中文物體在字面上缺少很多英文物體具有的明顯特徵,比如大寫、縮寫等。其次,處理中文文字需要處理分詞問題。不同的分詞結果影響著句子的語意表達結果,而且現在的分詞技術也存在著許多缺陷,分詞的錯誤會對物體名邊界的確認造成影響。此外,中文物體識別還缺少訓練資料。現在命名物體識別的主流方法是機器學習,在機器學習中,訓練資料是至關重要的。因此缺少訓練資料對中文物體識別造成了很大的困難。最後,中文知識圖譜並不如英文知識圖譜那麼完善,缺少很多物體關係,多了不少噪音,這就導致很多利用物體關係解決問題的方法難以達到效果。

三、主要應用場景

1、資訊抽取

      資訊抽取系統提取的物體和關係通常是不明確的,將它們與知識庫連結起來是消除歧義和精化輸入的好方法,這對於它們的進一步發展至關重要。

資訊抽取的一個重要任務就是關係抽取。知識圖譜中除了物體之外,還有許多關係和屬性。CN-DBpedia中的關係如圖3所示,這樣的關係通常是不完整的,需要從大量的自由文字中抽取。比如,若需要從文字“喬治.馬丁寫了冰與火之歌”中抽取關係,第一步則是將“喬治.馬丁”和“冰與火之歌”從文字中識別並分別連結到正確的人和書名之中,然後才能根據其餘文字抽取出這樣的關係。

圖3 CN-DBpedia中的物體關係與屬性

2、資訊檢索

      由傳統的基於關鍵字的搜尋推進到基於語意物體的搜尋的這一趨勢,近年來引起了很多關註。基於語意物體的搜尋可以受益於物體連結,因為它本質上需要在網路文字中出現消除歧義的物體名,以便更精確地處理物體和Web檔案的語意。 另外,歧義查詢也會影響搜尋結果質量,有歧義的物體出現在搜尋查詢中,給資訊檢索系統理解查詢帶來了巨大挑戰,因此物體識別與連結至關重要。

      比如物體名“紅樓夢”出現在查詢陳述句中可能有很多不同的意思,有可能指的是名著《紅樓夢》,也有可能是某部改編的電視劇或者電影。將這些有歧義的物體名進行識別和連結無疑能提高傳回搜尋結果的質量。

3、主題分析

      主題分析是指從文字內容中分析出主題,主旨及其分類等資訊,這也需要利用物體識別與連結。將文章中的物體連結到知識庫,可以透過物體的類別和關係等資訊更好地進行主題分析。如今,微博已經成為重要的資訊來源,可以透過發現特定微博使用者感興趣的主題推薦和搜尋其他微博使用者。比如在一個使用者的微博中識別出了“成龍”,另一個使用者的微博識別出了“李連傑”,那麼可以透過這兩個物體在知識庫的關聯來對微博使用者進行關聯和推薦。

4、智慧問答

      大多數智慧問答系統利用其支援的知識庫來回答使用者的問題。為了回答“青藏高原是誰唱的?”這個問題,系統可以透過物體識別和連結,消除物體名“青藏高原”的物體歧義,然後從知識庫中直接找到唱這首歌的歌手來作為使用者問題的回答。

5、知識庫擴充

      隨著世界的發展,新的事實在網路上產生並被數字化表達。利用新提取的事實自動填充和豐富已有的知識庫,已成為語意Web和知識管理技術的關鍵問題。 物體連結本質上是知識庫擴充的一個重要的子任務。給定一個需要擴充知識庫的關係或事實,如果與該關係相關的物體在知識庫中有其相應的物體記錄,則應該進行物體關聯任務,將該物體名與其對應的物體相關聯,因此,物體識別與連結能夠幫助知識庫擴充。

四、物體識別與連結服務

知識工場提供物體識別與連結的服務,包括DEMO和API。

1、DEMO

地址為 http://shuyantech.com/api/entitylinking/

在輸入框輸入文字,輸出經過物體識別與連結後的文字,其中被識別的物體會連結到CN-DBpedia知識庫中。如圖4所示。

圖4 物體連結demo

2、API

地址為 http://shuyantech.com/api/entitylinking/cutsegment

輸入引數q,表示輸入的文字

輸出為包含兩個域的json字典。其中鍵“cut”表示將輸入文字的分詞結果,值為字串串列;鍵“entities”表示輸入文字中連結的物體,值為一個串列,串列的每個元素表示一個連結的物體,表示為一個長度為2的串列,串列第一個元素是物體在輸入文字中出現的位置,第二個元素為物體在CN-DBpedia中的名字。

使用示例:

輸入:

http://shuyantech.com/api/entitylinking/cutsegment?q=打球的李娜和唱歌的李娜不是同一個人

輸出:

{“cuts”: [“打球”, “的”, “李娜”, “和”, “唱歌”, “的”, “李娜”, “不是”, “同一個”, “人”], “entities”: [[[3, 5], “李娜(中國女子網球名將)”], [[9, 11], “李娜(流行歌手、佛門女弟子)”]]}

五、物體識別與連結資料集

       知識工場提供物體識別與連結的資料集。

      資料集的文字由1037條人工標註的短文字語料組成。其中大約70%來自新聞語料,包括新聞標題和內容,比如“英超-桑切斯4分鐘內梅開二度阿森納3-2五輪不敗”,大約20%來自人工構建的基於歧義物體的語料,比如“紅樓夢的演員有哪些?”,其餘的大約10%來自問答語料中的簡單問句,比如“嶽陽有哪些旅遊景點?”。

      資料標註的格式如下。每個樣本的標註格式包括3個部分:語料,mention和物體。用製表符‘\t’分隔,其中mention為語料中指代物體的欄位,多段用“|||”分隔,物體部分為各mention對應的物體,多個用“|||”分隔,數量應與mention一致。比如“李娜拿過澳網冠軍嗎\t李娜|||澳網\t李娜(中國女子網球名將)|||澳大利亞網球公開賽”。

      目前,我們的物體識別與連結技術在該資料集上達到很好的效果。在沒有任何背景主題資訊,無論是短語還是長句,均達到90%以上準確率。其中物體識別部分的準確率為91.0%,物體連結部分的準確率為94.5%。更多詳細指標見技術報告。

      知識工場提供物體識別與連結的資料集。連結如下:

       https://github.com/chenlihan240/chinese_entity_linking/blob/master/data/test.txt

– The End –


關於PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。


贊(0)

分享創造快樂