作者丨孫子荀

單位丨騰訊科技高階研究員

研究方向丨多模態內容質量

本人過去幾年一直從事內容質量方面的演演算法工作，近期出於興趣對假新聞這個問題做了一些調研，簡單總結一下提供讀者參考。

在某種程度上假新聞的是一個微觀領域問題，它和謠言分類，事實判斷，標題黨檢測，垃圾內容挖掘等都比較類似，在宏觀上說都屬於內容質量的領域，所以很多方法其實是通用的框架。

本文主要簡單介紹了我們的做法和幾篇具有典型代表的假新聞論文，從不同的方法路徑去瞭解多模態、網路遊走、特徵挖掘等手段在假新聞領域上的一些實踐。

模型構建

根據 [Kai Shu, 2017] 的劃分，模型在這裡主要有兩類：1）基於內容的建模；2）基於社交網路的模型。

1. 基於內容建模

有 1.1 面向知識和事實庫的和 1.2 面向行文風格的。

1.1 面向知識庫

事實檢查系統有點類似謠言鑒別系統，對文章描述的觀點和客觀事物進行校真，類似 QA 系統是一個比較複雜的 NLP 領域，包括知識表示、知識推理。在知識庫資料集上有集中劃分方式：

1. 專家系統：各個領域的專家構建的知識庫，顯然這種方式的效率和擴充套件性都非常差。不過如果是垂直類目（生物，歷史）那或許可以在某個客觀事實比較多的類目下進行嘗試；

2. 集體智慧：使用者集體知識的反饋來構建的一套知識庫。

1 和 2 有了之後其實可以透過類似檢索的方法，來對新的內容進行相似度判斷，從而充分利用積累的歷史內容提供出來的特徵指示。

3. 基於演演算法分類：使用知識圖譜或者事理圖譜來對內容進行真實性判斷，當前主要的開放知識圖譜有 DB-pedia 和 Google Relation Extraction 資料集。

這個領域的問題，類似 NLP 的 QA 問題，有興趣的同學可以參考 [Yuyu Zhang, 2017] 的 VRN變分推理網路。

作者透過機率模型來識別問句中的物體，問答時在 KB 上做邏輯推理，且推理規則將被學習出來。即可用於做事實判斷。

當前這個方向技術落地成本高，難度較大，效果也不一定理想。

1.2 面向內容風格

用文章內容本身的行文風格，透過背景關係無關文法得到句子的句法結構，或者 RST 修辭依賴理論等其他 NLP 深度模型去捕捉句子文法資訊。

根據捕捉文字資訊描述種類的不同，作者分為兩類，檢測欺騙程度，檢測描述的主觀客觀程度（越客觀公正的可能性越大）兩種。震驚體的標題黨就屬於這類。

其中，假新聞可能用到的特徵，包括普通特徵和聚合特徵兩大類。普通特徵就是頁面，文字，圖片，標題等單純的特徵 embedding，聚合特徵就是把各個普通特徵進行組合和有監督的訓練成一個一個子模型問題。然後這些子模型的輸出又可以作為聚合特徵用在假新聞領域。

下圖就是我們使用的主要特徵集：

其他：基於社交網路建模

分為兩種，基於立場和基於傳播行為的。

前者主要是基於使用者對內容的操作（評論，點贊，舉報等等）構建矩陣或者圖模型。

而基於傳播行為對物件建模，類似 PageRank 的行為傳遞。下麵介紹的 News Verification by Exploiting Conflicting Social Viewpoints in Microblogs 一文就是這種型別。

1. 對虛假新聞的傳播遊走軌跡跟蹤，以及透過圖模型和演化模型中針對特定假新聞的進一步調查；

2. 識別虛假新聞的關鍵傳播者，對於減輕社交媒體的傳播範圍至關重要。

假新聞研究方向

[Kai Shu, 2017] 文章總結了假新聞的幾個主要的研究方向。

資料方面的研究工作：現在還沒有標準的測評資料集，這是需要去建立的。再有就是透過傳播特性去更早的檢測假新聞。另外一個就是從心理學角度去做假新聞的意圖檢測，這個角度過去往往被忽略。

模型特徵方面的研究工作：往往會使用使用者的畫像特徵，內容特徵（NLP、CV）結合深度學習，還有傳播網路特徵，比如使用者和內容之間的關係構造出來的網路特徵，網路本身的 embedding 表現。

模型方面的研究工作：第一個就是特徵之間的組合。第二是預測標的的變化。第三不論是從內容源，還是文章風格，或者內容的反饋（評論，等互動行為）都有各自的限制，組合這些模型。最後就是空間變換，把特徵變換到另外的 latent 語意空間嘗試解決。

資料集

FakeNewsNet

BuzzFeed 和 PolitiFact 兩個平臺的資料集，包括新聞內容本身（作者，標題，正文，圖片影片）和社交背景關係內容（使用者畫像，收聽，關註等）。

資料集可獲取方式：

https://github.com/KaiDMML/FakeNewsNet

代表論文

LIAR

該資料集也是來自 PolitiFact，包括內容本身和內容的基礎屬性資料（來源，正文）。

資料集可獲取方式：

http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

代表論文

Twitter and Weibo DataSet

一個比較全的資料集包括帖子 ID，發帖使用者 ID，正文，回覆等資料。

資料集可獲取方式：

http://alt.qcri.org/~wgao/data/rumdect.zip

代表論文

Twitter15 Twitter16

被上面的資料集使用。來自 Twitter 15、16 年的帖子，包括了帖子之間的樹狀收聽，關註關係和帖子正文等。

資料集可獲取方式：

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

代表論文

Buzzfeed Election Dataset & Political News Dataset

Buzzfeed’s 2016 收集的選舉假新聞，以及作者收集的 75個新聞故事。假新聞，真新聞和諷刺新聞。

資料集可獲取方式：

https://github.com/rpitrust/fakenewsdata1

代表論文

資料挖掘

[Benjamin D. Horne and Sibel Adalı,2017] 透過手工構建了大量的特徵，使用單因素方差分析和秩和檢驗對特徵進行挖掘。發現真新聞文章明顯長於假新聞文章，假新聞很少使用技術詞彙，更少的標點符號，更少的引號和更多的詞彙是冗餘的。另外標題也有明顯的不同，假新聞的標題會更長，更喜歡增加名詞和動詞。真的新聞透過討論來說服，假新聞透過啟發來說服。

類似的內容分析還有：Automatic Detection of Fake News。

[z.zhao et, 2018] 發現大多數人轉發（紅點）真實新聞是從一個集中的來源（綠點）。而虛假新聞透過人們轉發其他轉發者來傳播的。

參考文獻

[1]. Yuyu Zhang, Hanjun Dai, Zornitsa Kozareva, Alexander J. Smola, Le Song. “Variational Reasoning for Question Answering with Knowledge Graph”. arXiv preprint arXiv:1709.04071, 2017.

[2]. Zhiwei Jin, Juan Cao, Yongdong Zhang, and Jiebo Luo. “News Verification by Exploiting Conflicting Social Viewpoints in Microblogs”. AAAI 2016.

[3]. Kai Shu, Suhang Wang, Huan Liu. “Beyond News Contents: The Role of Social Context for Fake News Detection”. WSDM 2019.

[4]. Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, Huan Liu. “Fake News Detection on Social Media: A Data Mining Perspective”. SIGKDD 2017.

[5]. William Yang Wang. “Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News Detection. ACL 2017.

[6]. Natali Ruchansky, Sungyong Seo, Yan Liu. “CSI: A Hybrid Deep Model for Fake News Detection”. CIKM 2017.

[7]. Andreas Hanselowski, Avinesh PVS, Benjamin Schiller, Felix Caspelherr, Debanjan Chaudhuri, Christian M. Meyer, Iryna Gurevych. “A Retrospective Analysis of the Fake News Challenge Stance Detection Task”. arXiv preprint arXiv:1806.05180, 2018.

[8]. Benjamin D. Horne, Sibel Adali. “This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News”. ICWSM 2017.

點選以下標題檢視更多往期內容：

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？ 答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術乾貨。我們的目的只有一個，讓知識真正流動起來。

? 來稿標準：

• 稿件確系個人原創作品，來稿需註明作者個人資訊（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已釋出連結

• PaperWeekly 預設每篇文章都是首發，均會新增“原創”標誌

? 投稿郵箱：

• 投稿郵箱：hr@paperweekly.site

• 所有文章配圖，請單獨在附件中傳送

• 請留下即時聯絡方式（微信或手機），以便我們在編輯釋出時和作者溝通

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關註」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號後臺點選「交流群」，小助手將把你帶入 PaperWeekly 的交流群裡。

▽ 點選 | 閱讀原文 | 獲取最新論文推薦

閱讀原文

分享想法到看一看

</div><br />
<p><span class=”like_comment_msg” id=”js_b_like_comment_msg” style=”visibility: hidden;”>最多200字，當前共<span id=”js_b_like_current_cnt”/>字</span><br />
</div><br />
</div><br />
<div class=”like_comment_primary_mask” id=”js_mask_2″/><br />
</div><br />
<div id=”js_loading” style=” display: none;”><br />
<div class=”weui-mask_transparent”/><br />
<div class=”weui-toast”><br />
<i class=”weui-loading weui-icon_toast”/></p><br />
<p class=”weui-toast__content”>傳送中</p><br />
</div><br />
</div><br />
<div id=”js_fail” style=”display:none”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”><br />
        網路異常，請稍後重試    </div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:;” id=”js_fail_inform”>知道了</a><br />
</div><br />
</div><br />
</div><br />
<div class=”weui-desktop-popover weui-desktop-popover_pos-up-center weui-desktop-popover_img-text” id=”js_pc_weapp_code” style=”display: none;”><br />
<div class=”weui-desktop-popover__content”><br />
<div class=”weui-desktop-popover__desc”><br />
<img id=”js_pc_weapp_code_img”/><br /><br />
            微信掃一掃<br/>使用小程式<span id=”js_pc_weapp_code_des”/> </div><br />
</div><br />
</div><br />
<div id=”js_minipro_dialog” style=”display:none;”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”>即將開啟”<span id=”js_minipro_dialog_name”/>”小程式</div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_default” href=”javascript:void(0);” id=”js_minipro_dialog_cancel”>取消</a><br /><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:void(0);” id=”js_minipro_dialog_ok”>開啟</a><br />
</div><br />
</div><br />
</div><br />
</div><br />

一文看懂虛假新聞檢測（附資料集 & 論文推薦）

模型構建

資料集

資料挖掘

相關論文介紹

相關比賽

參考文獻

朋友將在看一看看到

分享想法到看一看

相關推薦

熱門標籤

熱門文章

分享創造快樂