歡迎光臨
每天分享高質量文章

知識圖譜最新論文合輯:從 NeurIPS 2018 到 AAAI 2019

精選 5 篇來自 AAAI 2019、NeurIPS 2018、ISWC 2018 和 ESWC 2018 的知識圖譜相關工作,帶你快速瞭解知識圖譜領域最新研究進展。

本期內容選編自微信公眾號「開放知識圖譜」。

AAAI 2019

■ 論文解讀 | 康矯健,浙江大學碩士生,研究方向為知識圖譜

 

摘要

近來,針對事件抽取的工作大都集中在預測事件的 triggers 和 arguments roles,而把物體識別當作是已經由專家標註好了的,然而實際情況是物體識別通常是由現有工具包預測出來的,而這將會導致物體型別預測產生的錯誤傳播到後續任務中而無法被糾正。

因而,本文提出一種基於共享的 feature representation,從而預測物體型別,triggers,argumentsroles 的聯合模型。實驗表明我們的方法做到了 state-of-the-art。

模型介紹

概覽 

如圖 1 所示,該模型由三個核心部分組成,分別是物體型別預測(Entity MentionDetection – EMD)、事件型別預測(Event Detection – ED)和語意角色型別預測(Argument RolePrediction – ARP)。

Sentence Encoding 

句子中的每個詞向量表示由兩部分組成。一部分是由 word2vec 預先訓練好的詞向量;第二部分是 binary vectors,由 POS,chunk 以及 dependency 信息組成。之後將這兩部分拼接在一起。 

Sentence Representation

將 Sentence Encoding 中得到的詞向量輸入到 bi-GRU 中得到每個詞的隱藏層表示。 

已經有實驗表明 bi-GRU 可以 encode 非常豐富的背景關係信息,這對事件抽取這個任務非常有效。之後,這個表示將作為 EMD、ED 以及 ARP 任務預測物體型別,trigger 型別和語意角色型別的 shared representation。 

我們的標的就是最大化三個預測任務的聯合概率:

Entity Mention Detector 

可以將物體型別檢測的標的函式展開如下:

我們的標的是最大化這個概率,其中:

其中:

Trigger and Argument Prediction 

可以將事件型別的檢測和語意角色型別的預測展開成如下標的函式,我們的標的是最大化這個標的函式:

其中:

其中:

實驗分析

Trigger和語意角色預測實驗效果 

可以看到,本文提出的聯合訓練模型在 event trigger identification、event trigger classification、event argument identification、event argument classification 上的 F1 值都達到了當前最優效果,具體結果如下: 

物體型別預測的結果

試驗結果表明,本文提出的模型在物體型別檢測上的 F1 值同樣達到了最優,具體結果如下:

Error Analysis 

可以看到 trigger classification(69.8%)和 trigger identification(72.5%)的效果相差不多,可見主要的錯誤來源於未能準確判斷一個詞屬於 trigger word。

而通過對未能檢測出來的 trigger word 的研究發現主要是由於在訓練資料集上未出現過這個詞,比如:

通過對檢測出來是 trigger word 而未能正確預測其型別的詞的研究發現,主要錯誤來源於該詞附近出現了有誤導性的背景關係信息,而我們的模型不能很好地判別,比如,下麵這句話的 fire 可能會由於 car 的出現而被錯誤判斷未 Attack 的事件型別,這啟發我們去研究一個更好的能夠 encode 背景關係的模型:

 

AAAI 2019

■ 論文解讀 | 張清恆,南京大學碩士生,研究方向為知識圖譜

 

摘要

近來,針對跨知識圖譜(KGs)的物體對齊任務,研究者提出並改進了多種基於 embedding 的模型。這些模型充分利用物體與物體之間的關係以得到物體之間的語意相似度,換言之,這些模型更關註於關係三元組(relationship triple)。

本文發現 KG 中存在著大量的屬性三元組(attribute triple),本文提出的模型利用屬性三元組生成 attribute character embeddings,使其幫助不同 KG 中的物體映射到同一空間中。與此同時,模型還使用傳遞規則進一步豐富三元組。

實驗結果表明,相比於現有方法,本文提出的模型在物體對齊任務上取得了較大的提升。

模型介紹

概覽 

如圖 1 所示,該模型由三個核心部分組成,分別是謂詞對齊(predicate alignment)、嵌入學習(embedding learning)和物體對齊(entity alignment)。

Predicate Alignment 

該模塊通過重命名潛在對齊的謂詞將兩個 KG 合併成一個 KG。通過計算謂詞的名稱(URI 的最後一部分)相似度,發現潛在對齊的謂詞對,然後使用統一的命名格式將其重命名。例如,將對其的謂詞對,“dbp:bornIn”和“yago:wasBornIn”重命名成“:bornIn”。

Embedding Learning 

Structure Embedding 

Structure embedding 模塊採用 TransE 實現,與 TransE 不同的是,模型希望更關註已對齊的三元組,也就是包含對齊謂詞的三元組。模型通過添加權重來實現這一目的。Structure embedding 的標的函式如下:

其中,count(r) 是包含的三元組的數量,表示合併之後的三元組集合。 

Attribute Character Embedding 

與 structure embedding 一樣,attribute character embedding 也借鑒了 TransE 的思想,把謂詞作為頭物體與屬性值之間的轉換媒介。但與 structure embedding 不同的是,對於相同含義的屬性值,在不同的 KG 中表現形式存在差別。

因此,本文提出了三種屬性值組合函式。在組合函式編碼屬性值之後,模型希望屬性三元組滿足,其中是組合函式,表示屬性值的字串。三種組合函式如下:

1. Sum compositional function (SUM)

2. LSTM-based compositional function (LSTM)

3. N-gram-based compositional function (N-gram)

Joint Learning of Structure Embedding and Attribute Character Embedding 

本文提出的模型旨在使用 attribute character embedding 幫助 structure embedding 在同一向量空間中完成訓練,聯合訓練的標的函式如下:

本文提出的模型的整體標的函式如下:

Entity Alignment 

在經過上述訓練過程之後,來自不同 KG 的相似的物體將會有相似的向量表示,因此可通過獲得潛在的物體對齊對。此外,模型設定相似度閾值來過濾潛在物體對齊對,得到最終的對齊結果。 

Triple Enrichment via Transitivity Rule 

本文發現利用傳遞關係可以豐富三元組,從而提升物體對齊效果。給定三元組和三元組,可將作為頭物體 h1 和 h2 尾物體的關係,使其滿足

實驗分析

資料集 

本文從 DBpedia (DBP)、LinkedGeoData (LGD)、Geonames (GEO) 和 YAGO 四個 KG 中抽取構建了三個資料集,分別是 DBP-LGD、DBP-GEO 和 DBP-YAGO。具體的資料統計如下:

物體對齊結果

本文對比了三個相關的模型,分別是 TransE、MTransE 和 JAPE。試驗結果表明,本文提出的模型在物體對齊任務上取得了全面的較大的提升,在三種組合函式中,N-gram 函式的優勢較為明顯。此外,基於傳遞規則的三元組豐富模型對結果也有一定的提升。具體結果如下:

基於規則的物體對齊結果 

為了進一步衡量 attribute character embedding 捕獲物體間相似信息的能力,本文設計了基於規則的物體對齊模型。

本實驗對比了三種不同的模型:以 label 的字串相似度作為基礎模型;針對資料集特點,在基礎模型的基礎之上增加了坐標屬性,以此作為第二個模型;第三個模型是把本文提出的模型作為附加模型,與基礎模型相結合。具體結果如下:

KG補全結果

本文還在 KG 補全任務上驗證了模型的有效性。模型主要測試了鏈接預測和三元組分類兩個標準任務,在這兩個任務中,模型也取得了不錯的效果。具體結果如下:

NeurIPS 2018

■ 論文解讀 | 黃佳程,南京大學碩士生,研究方向為知識圖譜、物體消解

論文動機

張量分解方法被證明是一種有效的用於知識圖譜補全的統計關係學習方法。最早提出的張量分解方法為 CP 分解(Canonical Polyadicdocomposition),這種方法為每個物體學習出一個頭物體嵌入和一個尾物體嵌入,而頭尾嵌入是獨立的。這導致了該方法在補全上性能較差。SimplE 基於 CP 方法提出了一種張量分解方法,解決其訓練中頭尾無關的問題。

亮點

SimplE 的亮點主要包括:

1. SimplE 可以被看成一種雙線性模型,與其他模型相比,它具有完全表達能力,同時冗餘引數少;

2. SimplE 可以通過引數共享的方式將背景知識編碼進嵌入中。

概念及模型

 

其中 v,w,x 為 3 個 d 維向量,v[j], w[j], x[j] 分別表示向量 v,w,x 的第 j 個分量。

圖譜中的關係型別(ζ 表示正例,ζ’ 表示反例):

1. 自反性

2. 對稱性

3. 反對稱性

4. 傳遞性

SimplE模型

a) 物體和關係的表示:每個物體 e 具有兩個嵌入 h_e 和 t_e,分別表示其在頭物體和尾物體中的表示,每個關係有兩個表示;

b) 三元組 (e_i,r,e_j) 的打分函式:

該打分函式可以看成 (e_i,r,e_j) 和 (e_j,r^-1,e_j) 的 CP 打分的平均值。

c) 在實驗中,SimplE-ignr 的打分函式僅為第一項 CP 打分,作為一種對比方法。

SimplE 模型的學習過程:訓練中使用隨機梯度下降,返利生成方法和 TransE 相同。優化標的為帶 L2 正則化的負對數似然函式:

SimplE 利用背景知識的方法: 

a) 對於自反的關係 r 和,可以通過系結兩個引數;

b) 對於反對稱關係,可以將系結成-v_r;

c) 對於關係 r1,r2 使得 (e_i,r_1,e_j) 和 (e_j,r_2,e_i) 總是同時成立,可以系結兩個關係的兩個引數。

理論分析

SimplE 模型的完全表達能力:當嵌入維數充分大時,SimplE 能夠完全表示 ground truth。

FSTransE 嵌入模型中:1)自反關係總是對稱的;2)自反關係總是傳遞的;3)e1 和 Δ 的所有物體具有關係 r,e_2 和 Δ 中的一個物體具有關係 r,則 e2 和 Δ 中的所有物體具有關係 r。其他變體 TransE,FTransE,STransE,TransH 等也有同樣的缺陷。 

DistMult,ComplEx,CP 和 SimplE 都可以看作雙線性模型(需要把 SimplE 的頭尾表示拼接作為一個物體的單一嵌入),這時他們關係表示的引數如下圖:

ComplEx 的引數規模為 SimplE 的 2 倍,並且存在冗餘。

實驗

實驗結果

作者與 WN18 和 FB15K 在兩個基準資料集上進行了比較,結果顯示了 SimplE 都取得了較好的效果。

總結

本文提出了一種簡單可解釋且具有完全表達能力的雙線性模型用於知識圖譜補全。文章證明瞭 SimplE 模型在實驗中性能良好,並且具有編碼先驗知識的能力。

ISWC 2018

■ 解讀 | 張文,浙江大學博士生,研究方向為知識圖譜的表示學習、推理和可解釋

本文是我們於蘇黎世大學合作的關註與知識圖譜和文本對齊的論文,發表於 ISWC 2018。

文本和知識圖譜都包含了豐富的信息, 其中知識圖譜用結構化的三元組表示信息,文本用自由文本形式表示信息,信息表示的差異給知識圖譜和文本融合對齊造成了困難,本文關註於如何將知識圖譜於文本進行對齊,並提出了基於正則的多任務學習的對齊模型 KADE。 

文本選擇了將知識圖譜的物體和描述物體的文本進行對齊,首先將文本和知識圖譜都通過表示學習映射到向量空間,學習到文本和物體的向量表示,在學習過程中加入正則約束使表示同一物體的物體向量和描述文本在向量空間中盡可能接近,知識圖譜和文本的表示學習模型交替進行訓練,從而在不影響文本和知識圖譜各自的表示學習效果的情況下實現對齊。

KADE 的核心想法如下:

本文的實驗主要採用了三個資料集,FB15k,FB40K 和 DBP50。實驗中知識圖譜表示學習採用了 TransE,TransH 和 TransD,併在鏈接預測任務上進行了測試,實驗結果如下並表明瞭 KADE 對知識圖譜表示學習模型本身的效果沒有影響且稍有提升。

實驗中文本表示學習模型採用了 PV-DM,併在文本分類任務上進行了測試,實驗結果如下並標明瞭 KADE 對文本表示學習模型的效果沒有影響且有明顯提升。

本文還驗證了 KADE 的對齊效果,提出了一個評價對齊效果的指標 normalizedalignment score, 這是一個介於 0 到 1 之間的值且值越大說明對齊效果越好。

我們構造了一個對齊的 baseline 通過非線性函式實現文本表示學習向量空間和知識圖譜表示學習向量空間的互相轉換,實驗結果如下:

從上圖的實驗結果能夠看出,簡單了非線性空間映射幾乎無法完成對齊任務,同時 KADE 實現了知識圖譜物體和物體描述文本的對齊。

ESWC 2018

■ 論文解讀 | 劉曉臻,東南大學本科生,研究方向為知識圖譜

論文動機

QA 任務通常被劃分為命名物體消歧(Named EntityDisambiguation, NED),關係提取(Relation Extraction, RE),以及查詢生成(Query Generation,QG)幾個子任務。但這種劃分很少能夠真正實現 QA 系統構造的模塊化,這導致研究人員群體無法成功有效地將自己的研究建立在本領域之前的成果上。

雖然的確有諸如 OKBQA 的模塊化框架的存在,但 OKBQA 對查詢生成關註的太少,其 24 個可重覆利用的 QA 組件中只有一個是查詢生成器。而且,不斷增加的問題複雜程度給查詢生成任務帶來了幾個難點: 

  • 處理大規模的知識庫; 

  • 識別問題型別,諸如布爾型; 

  • 處理有噪聲的標註; 

  • 對一些需要特殊查詢特性的複雜問題的支持,諸如聚集、排序和比較等; 

  • 輸入問題存在句法上的不明確性,如語序可以顛倒等。 

因此,針對以上的問題及難點,本文提出了 SPARQL 查詢生成器(SPARQL Query Generator, SQG),一個能夠超越現有最高水平的,用於 QA 任務工作流的模塊化查詢建構式。

SQG 使用基於樹形 LSTM(Tree-LSTM)相似度的候選查詢排名機制,能夠處理含噪聲的輸入,且在基於 DBpedia 的大型 Q/A 資料集上經過評估。

貢獻

文章的貢獻有:

1. 給出了 KBQA 任務中 QG 任務的模塊化、與其他子任務分開的正式定義。

2. 指出了影響 QG 任務性能的因素,並針對這些現有難點,提出了 SQG 這一模塊化的、性能優良的查詢生成器,並引入排名機制增強答案的準確度。

方法

任務定義及理論基礎

定義查詢生成如下:給出問題字串s和一個知識圖譜 K=(E,R,T),其中 E 為物體集合,R 為關係標簽集合,為有序三元組集合。

在 QA 工作流的之前階段已執行物體和關係的鏈接,即已給出一個從 s 的子串(話語串)到知識圖譜中的 E 和 R 各自映射的集合 M。查詢生成這一任務即用 s, D 和 M 來生成一個 SPARQL 查詢(文中並未對 D 做出明確解釋)。

由於 NED 和 RE 模塊會為問題中的每一個話語串列出一些候選註釋,因此這一註釋任務在此就不那麼重要。基於查詢生成的定義,可以定義高級查詢生成任務:條件是每一個子串 s 都已映射到 E 和 R 各自的一個非空子集上,即物體和關係都有一些候選註釋。

例如,如圖 1 所示,物體“artists”有多個候選註釋,諸如“dbo:Artist”,“dbo:artists”等。本文的實驗表明考慮多個候選註釋而不是只選擇得分最高的註釋會提升表現。

圖 1 為一個經過 NED 和 RE 組件輸出註釋後的簡單問題。對於問句中每個已識別的話語串,根據可行度得分排名列出一些候選註釋。

本文猜想一個問題的形式化理解為知識圖譜中的一個路徑(walk)w,其只含有輸入問題 s 的標的物體 E 和關係 R,以及答案節點。其中,知識圖譜 K=(E,R,T) 中的一個路徑定義為一串邊和這些邊連接的節點:W=(e0­,r­­0,e1,r1,e2,…,ek-1,rk-1,ek),且對於 0≤i≤k-1,(ei,ri,ei+1)∈T。

就一個物體集合 E’ 和關係集合 R’ 而言,當且僅當一個路徑 W 包含 E’ 和 R’ 中的所有元素時,此路徑為有效路徑,即 ∀e∈E’ : e∈W 且 ∀e∈R’ : e∈W。若一個節點 e∈W,但 e ∉ E’,此節點即為未連接的,未連接節點用來連接一個路徑中其他的節點。 

獲取有效路徑有兩步:第一步,先確定問題的型別(例如為布爾型或計數型),根據型別來從知識圖譜中抽取一些有效路徑,但因為這些路徑可能會無法正確獲取問題背後的意圖,大部分路徑可能都是輸入問題的錯誤映射。這時就需要第二步,根據候選路徑和輸入問題的相似度來對候選路徑排名。

SQG 的大體框架如下圖 2。

查詢生成

將任務限制在含有所有鏈接物體和關係的子圖中,在其中列舉出候選路徑並直接映射到 SPARQL 查詢中。另外還需要識別問題型別才能從有效路徑中創建結構正確的候選查詢。 

獲取子圖:從一個充滿鏈接物體 E 作為節點的空子圖開始,增加與在知識圖譜中存在的鏈接關係 R 相對應的邊,如圖 3 中實線所示。

在這一步中,一個關係可能連接兩個子圖中已有的節點,也可能將一個物體與一個未連接的節點相連。這樣一來這個子圖就可能包含一些有效路徑,但根據問題的意圖,可能需要包含距離物體兩跳(hop)的節點,故這些有效路徑可能都不是正確的。

比如在圖 3 中,由於答案節點“unbound1”距離物體“dbr:Send_It_On”兩跳,就沒有被包含在當前的子圖(由實線連接)中。為瞭解決這個問題且避免在底層的知識圖譜中搜索空間過大,本文的做法是用候選關係集合R來擴大子圖中現有的邊並且排除現有邊代表的關係。

如圖 3 所示,虛線代表擴展的邊。獲取子圖的演算法如演算法 1 所示。

圖 3 為已標註候選物體和關係的所給問題獲取的子圖;實線表示的是在一跳距離上的子圖,虛線是在大於一跳距離上的子圖,圓圈代表未連接節點,方框中是鏈接物體,邊是知識圖譜中的關係。

列出候選路徑:獲取改寫了問題中所有物體和關係的子圖之後,視每個未連接節點為潛在的答案節點,由此需要尋找有效路徑,有效路徑的定義上文已給出。

例如,圖 4 中有四個有效路徑。若子圖中只有一個有效路徑,映射該路徑到 SPARQL 查詢上並將其報告為所給問題對應的查詢;若有不同型別的問題,比如要求計數或者是傳回布林值的問題,可能還需要進一步的擴大;若不只有一個有效路徑,則需要執行如下文所示的排序任務。

圖 4 為找到的四個候選路徑,分別用不同的顏色表示。

問題型別分類:SQG 支持簡單和複合問題。為了支持諸如布爾型和計數型的問題,首先需要識別問題的型別。

本文的做法是訓練一個 SVM 和朴素貝葉斯模型以根據問題的 TF-IDF 表示來將其分為布爾型、計數型或是列舉型。給出問題的型別之後,查詢生成器就可以根據型別來格式化查詢。例如,查詢生成器會為一個計數型查詢的 SPARQL 查詢輸出變數增加相應的函式。 

查詢排名

本文猜想路徑的結構是用來區分候選路徑與輸入問題之間相似度的一個重要特性。比如,圖 7 中,已生成的四個路徑有獨特的結構。因此,排名模型就應該需要包含輸入問題的結構。

本文給出的排名模型基於樹形 LSTM(Tree-LSTM),該模型考慮候選路徑關於問題句法結構上的樹形表示,以此來計算相似度。樹形 LSTM 旨在收納在子節點中的信息,它考慮到子節點的狀態來計算其內在狀態和輸出。這一結構使得樹形 LSTM 能夠輕鬆地涵蓋本文中輸入的樹形結構。

 圖5:排名模型結構

排名模型:圖 5 展示了排名模型的架構,使用兩個樹形LSTM來將輸入的路徑和問題映射到一個潛在向量化的表達中。

 

之後採用一個相似度函式計算相似度並來排名。在處理問題的樹形 LSTM 準備階段,用一個占位符來代替物體的錶面提及(surface mentions),在這之後創建一個依存分析樹,如圖 6。然後,查詢樹形 LSTM 接收候選路徑的樹形表示,如圖 7,其中只有 7a 是輸入問題的正確表達。

 

 圖6:問題“What are some artists on the show whose opening theme is Send It On? ”的依存分析樹

 圖7:候選路徑的樹形表示及其自然語言意思,其中顏色同圖4

實驗

實驗相關細節 

SQG 用 Python/Pytorch實現,其中排名模型中,單詞表示採用 Glove 單詞分詞工具。實驗的資料集為包含 5000 個問題-答案對的 LC-QuAD,不過實驗時用的是其中的 3200 對。

對於排名模型的資料集生成,採用 Stanford 分析器來產生輸入問題以及(查詢生成步驟中生成的)候選查詢的依存分析樹,並將資料集劃分成 70%/20%/10% 分別用於訓練/開發/測試。 

用精確率、召回率和 F1 值來衡量 SQG 的性能,基線系統為 Sina、NLIWOD。除此之外,本文還分別對 SQG 的子任務,即問題型別分類、查詢生成及排名模型進行了評估。 

問題型別分類的評估中,評估結果獨立於物體/關係鏈接模塊,在資料集的 50% 上執行 k-折交叉驗證,以訓練模型並找到最優引數值然後用它評估分類器,分別評估了朴素貝葉斯和 SVM 的精確率、召回率和 F1 值。 

在查詢生成器的評估中,引入三個評估情形。第一個是 Top-1 correct,只給出正確的鏈接物體/關係,以提供模型性能的上界估計。第二個是用於評估 SQG 健壯性的 Top-5 EARL+correct,EARL 是一個用於 NER 和 RE 任務的工具,此評估情形考慮來自於 EARL 的每個物體/關係的 5 個候選(查詢)串列,為了評估 SQG 獨立於鏈接系統之外的性能,當其不存在於串列中時,插入正確的標的物體/關係。第三個是 Top-5 EARL,用 EARL 的輸出來評估 QG 組件在一個功能正常的 QA 系統中的性能。 

對於排名模型,本文實驗了兩種計算相似度的函式,分別為餘弦相似度和基於神經網絡的函式,不過經測試神經網絡的方法明顯優於餘弦相似度,因此結果中只分別評估三種情形下,神經網絡方法計算相似度的結果。

實驗結果 

如下表 1 所示,SQG 表現明顯優於基線系統。基線系統中有三個缺點,一是必須要接收正確的物體/關係輸入;二是查詢擴大的能力有限;三是缺少排名機制,這些問題在 SQG 中都得到瞭解決。

問題型別分類的評估結果如下表 2 所示,儘管模型簡單,但大量的多樣化訓練資料確保了其優良性能。SQG 避免了手寫樣式集,因此它在不同環境下的應用性更強。

查詢生成器的評估結果如下表 3 所示。在 Top-1 correct 中,由於只有真正的標的物體/關係被給到了查詢生成器中,所以有效路徑數量非常低。在 Top-5 EARL+correct 中,可看出查詢生成器能夠處理有噪聲的輸入,並能夠涵蓋 98% 的問題,並且平均每個問題生成的查詢增加到了 2.25。

 

在 Top-5 EARL 中,表現顯著下降,因為對於 85% 的問題,EARL 提供的是部分正確而不是完全正確的註釋。如果只考慮 EARL 能夠容納所有正確標的鏈接的問題,改寫率就能夠達到 98%。

 

排名模型的資料集細節如下表 4。在 Top-1 correct 中,每個問題生成的查詢數量是 1.18,因為沒有很多可能的鏈接物體/關係的方式。表中第一行結果中正確/錯誤資料的不均衡導致排名模型接收的是一個不平衡的資料集,因為資料集中的樣本大多是正例。

 

 

而在 Top-5 EARL+correct 中,生成的查詢數量增加帶來訓練資料數量和多樣性的增加,此時正確和錯誤資料的分佈幾乎是平衡的,這帶來模型性能上的提升。

 

在 Top-5 EARL 中,儘管生成的查詢的平均數相比前兩種情形更高,但正確和錯誤資料的分佈仍不均衡,這是因為 72% 的情況下沒有路徑被生成,導致生成的查詢總數遠比其他情形少。錯誤如此之高是因為 NED 和 RE 組件提供的錯誤註釋。

 

排名模型的評估結果如下圖 5。在 Top-1 correct 中,儘管資料集分佈不均衡,排名模型也能達到 74% 的 F1 值,但由於此情形下平均查詢數量只有 1.18,故此結果不能準確地反映模型的性能。

 

 

在 Top-5 EARL+correct 情形下,F1 值增加到 84%,表明模型相對於第一種情形,在資料集更大和更均衡的情況下表現更好。在 Top-5 EARL 中,微 F1 值下降到 74%。這是由於資料集的不平衡和數量小。

 

總結

 

本文探討了 QA 系統中查詢生成任務的難點,引入了可以輕鬆集成進 QA 工作流的模塊化查詢生成器 SQG,其先生成候選查詢,再進行排名。實驗表明 SQG 性能優於現有的查詢生成方法。

赞(0)

分享創造快樂