歡迎光臨
每天分享高質量文章

預測演算法哪家強?龍媽苟活or涼涼?

導讀:通過對美劇「權利的游戲」中的信息分析,從資料的角度去預測了主要角色的生存幾率,這種對虛幻故事的研究手法,也將對現實生活中相似的應用案例帶來啟發。

關鍵詞:貝葉斯推斷 文本分析 詞性標註 網絡理論

 

作者:神經小姐姐,本文授權轉載自公眾號超神經HyperAI(ID:HyperAI),「鏈接人工智慧新場景」

 

這個世界上只有兩種人,看「權游」(權利的游戲)的,和不看「權游」的。

你們心心念的權游終於迎來了最終季,狼家史塔克的家訓「Winter is coming」終終終終終於是應驗了,人類與異鬼的戰爭一觸即發。各個主要角色的生死存亡你猜得到嗎?

▲這個深刻詮釋「凡人皆有一死」的熱劇,撲朔迷離的劇情讓觀眾對終局望眼欲穿

難道只能在一集集看完之後,才能知道你們牽掛的二丫會不會幸存,色後又會不會被二丫手刃?

面對這份煎熬,總有人按捺不住。比如,熱愛代碼的程式員們,就用演算法分析權游里的故事,預測了角色的生存概率,以及誰最有可能登上鐵王座。

有趣的是,不同的演算法和團隊,預測的結果大相徑庭。比如慕尼黑工業大學(TUM)團隊的演算法,預測最終龍媽登上了鐵王座;而另一種演算法下,龍媽沒能活過寒冬。

另外,還有一種神奇的「演算法」是:Men all die.

所以,哪家預測的結果準確?各家都有各家的依據,看看他們都怎麼做的。

01 機器學習預測龍媽要活到最後

TUM 的學生在計算機科學研討會上做了一個有趣大膽的嘗試:用資料科學和機器學習的方法,去預測權游中角色最後的存活機會。在「權力的游戲」第八季上映之前,演算法就預測出各個角色的命運。

▲左:生存率排行榜,右:死亡率排行榜(圖片來源:https://got.show/)

完整的權游人物清單以及詳細預測結果可在線獲取:

https://got.show 

 

這份結論中,龍媽存活的幾率最高( 99% ),她的國王之手小惡魔也有 97% 的存活率。難道是龍媽最後統領了各大家族?而狡猾又善於自保的波隆以 93.5% 位居死亡順序的首位。

 

這個結果從哪兒得來?

 

TUM 團隊的分析資料是從《冰與火之歌》的書中,權游的臺詞里,以及粉絲圈在維基百科上的內容搜集而來。用於預測的信息包括:角色所屬的家族,是否已婚,以及他們的盟友等情況。

他們提取了數百個角色的特征資料集,梳理了故事中角色的信息。除了諸如性別和地位等資料外,還考慮了元資料信息:比如某人是主要角色還是次要角色,以及他們在維基百科等渠道中被取用的頻率。

 

通過這些資料,利用演算法分析,揭示出了關於權游中死亡率的一些趨勢,例如男性比女性更危險(男性死亡率 22%, 而女性為 11% )。

在預測趨勢的同時,為了對每個角色的命運進行預測,團隊使用了兩個單獨的模型:第一種是貝葉斯推斷方法,使用 pymc3 封裝的 MCMC 方法來訓練貝葉斯生存分析模型;第二個涉及機器學習和神經網絡,在 Python 的 Keras 框架下進行。

 

▲鐵王座還是死亡,到底誰說了算

 

他們的工作或許會有些效果。早在 2016 年,在第 6 季播出之前,TUM 同一課程的學生就創建了一個演算法,準確預測了囧諾的複活。

02 利用文本分析:龍媽要狗帶?


你要相信,有同樣好奇心的人,肯定不止一位。

 

另一位資料科學家 Peter Vesterberg 通過對原著小說的文本分析,去預測最終季的劇情走向。

 

Peter 認為劇情的走向是人物間的關係所支撐的,通過分析了《冰與火之歌》已經出版的五本書,使用網絡理論計算出角色間的相互關係,用可視化的方式呈現出來,綜合人物的重要性判斷最後的存活幾率。

他用一個點來代表人物,根據冰火故事中的文本,利用詞性標註,相似度度量等方法,定義了角色之間的「接近」程度,越接近和越頻繁地出現兩個名字,他們的聯繫就越多。

判斷一個角色與其他角色的關聯性的方法,主要用了四個關鍵概念:

 

  • 度中心性——與該節點直接連接的節點占節點總數的比例;

  • 接近中心性——對於一個結點而言,距離其它結點越近,那麼它的中心度越高 ;

  • 中介中心性——量化該節點充當其他兩個節點之間最短路徑的橋梁的次數 ;

  • 特征向量中心性——一個節點的重要性既取決於其相鄰節點的數量,也取決於其相鄰節點的重要性。

 

通過這些概念的分析,得到關係值的「權重」數字。最終得到一份關於人物關係的圖譜,線條的粗細表示了人物聯繫的緊密程度,最後的結點大小代表了角色的重要性。這份重要性指標也顯示了會被作者「除去」的可能。

 

 

具體的指標排名如下:

 

▲四個分析指標的具體排名數值,囧諾( Jon )都是領跑

 

在這樣的分析下,囧諾毫無疑問是最重要的角色,難道這個生於龍家,長於狼家的疑似 RMB 玩家,最終會登上鐵王座?重要程度緊隨其後的,是智力擔當小惡魔和弒君者詹姆。

 

從網絡理論的角度來看,龍媽丹妮莉絲似乎是前期撒幣太多,後期估計是金幣不夠,只是處在關係網的邊緣,看來大概率是要涼了。

 

 

03 預測不只是為了娛樂,更是擁有現實意義

 

對於結果迥異的不同演算法,到底哪個更勝一籌,我們不得而知,也許只有在大結局到來時候,才能知曉。但他們使用的方法,都不只是鬧著玩,而是擁有實際的利用價值。

TUM 開發的生存幾率演算法,來自於一個嚴肅的學習專案。他們設立這項課程的主要的目的,是幫助學生將學習如何設計,開發和部署智慧計算機系統。 

該專案的首席導師 Guy Yachdav 博士說:「雖然預測權力游戲人物生存機會,依賴於從幻想世界中獲取的資料,但在現實世界中,使用完全相同的人工智慧技術,也會對我們的日常生活產生重大影響。」

 

▲Guy Yachdav 博士在 TED 演講中介紹預測演算法能夠解決現實世界中的問題

 

負責 TUM 信息學系生物信息學主任的 Burkhard Rost 教授說:「激情與教學的結合是創造新工具的絕佳方式。在 TUM 的課程中,我們找到了這種有趣的方式,去教學生如何使用這項技術。」

目前,在現實世界中,類似的演算法可用於醫學和金融,例如使用綜合信息分析預測健康情況 。這種技術類似於分析研究治療方法或併發症對癌症患者的影響。 

 

而對於資料學家 Peter 所做的事情,除了分析角色的存活,還從數字的角度去分析了「冰與火之歌」小說的各種書寫規律,用資料去解析一本小說的元素。

 

也許,掌握這一樣式之後,未來小說家和編劇就可以使用人工智慧快速地生成新內容,這樣就不會眼睜睜看著馬丁大大一直補不上的坑了。

 

04 想預測「復聯」最後活下來的英雄嗎?

熱鬧的 4 月,似乎又是一個落幕的季節,除了權游最終季,復仇者聯盟也要在下周三迎來大結局,想必很多人還沒從滅霸那個響指中緩過來,那個非要安靜看落日的狠人,就那麼隨機毀滅了一半的宇宙。

 

這個任性的死亡速度,估計 AI 也無法預測出來了。但是,如果你還是好奇心太重,想自己動手試一試的話,那麼 TUM 團隊的專案開源地址在此:

 

https://api.got.show/doc/

但其實,不需要 AI 預測,復聯 4 應該也是一個最優結局,畢竟奇異博士類似窮舉法,或者說試錯法之類的操作,把希望留給復聯世界:他用時間寶石嘗試了 14000605 種可能後,選擇了唯一會勝利的那條。

 

 

奇異博士的這種精神,用來寫代碼的話估計也是極好的。

 

05 百科知識

  • 詞性標註 Part-of-Speech Tagging

 

詞性標註(POS tagging ) 是將對句子中的詞語進行分類標註的過程。是依據字詞在句法結構或語言形態上承擔的成分,通過詞性分類賦予每個詞的詞性標記的過程。

 

也就是要確定句子中每個詞是名詞、動詞、形容詞或其他詞性的過程,又稱詞類標註或者簡稱標註。

 

詞性標註是自然語言處理中的一項基礎任務,在語音識別、信息檢索及自然語言處理的許多領域都有應用。

 

  • 詞性標註實現的方法

可以分為基於規則和基於統計的方法,主要有:

 

(1)基於最大熵的詞性標註

(2)基於統計最大概率輸出詞性

(3)基於 HMM 的詞性標註

 

  • 詞性標註的應用

(1)句法分析預處理

(2)詞彙獲取預處理

(3)信息抽取預處理

赞(0)

分享創造快樂