11萬部影視作品揭秘，掌握過半GRE單詞，居然只需看懂20部電影？-知識星球

來源：戀習Python（ID：sldata2017

作者，何坦瑨，個人簡介|我在山上寫程式碼，過渡金屬鋰鈉鉀

知乎連結|https://zhuanlan.zhihu.com/p/42470066

殺G之路漫漫，求索之人蹌蹌。如何邊看電影邊記單詞，娛樂學習兩不誤？且讓大資料告訴我們，究竟哪些影視作品大量出現GRE單詞？看懂多少部影視作品，就可以掌握過半GRE詞彙？

說明：GRE，全稱Graduate Record Examination，中文名稱為美國研究生入學考試，適用於除法律與商業外的各專業，由美國教育考試服務處（Educational Testing Service，簡稱ETS)主辦。GRE是世界各地的大學各類研究生院（除管理類學院，法學院）要求申請者所必須具備的一個考試成績，也是教授對申請者是否授予獎學金所依據的最重要的標準。GRE，首次由美國哈佛，耶魯，哥倫比亞，普林斯頓四所大學聯合舉辦，初期由卡耐基基金會(Carnegie Foundation）承辦，1948年交由新成立的教育測試中心ETS負責。

【先放結論】都說沒有調查就沒有發言權，本文透過對11萬部影視作品進行大資料分析，為大家找出那些與GRE最相關的作品。原來包含最多GRE單詞的是哈姆萊特!看懂時長4小時的哈姆萊特可以幫你掌握915個GRE單詞！而掌握過半GRE詞彙，可能只需要看懂20部電影!

一、資料來源

感謝射手站長，他將15年來積累的海量字幕資料無私分享出來，供廣大群眾學習研究使用。其中包括對應於26萬部影視作品的66萬份字幕檔案，壓縮後大約75G。經過壓縮格式分類，解壓縮，字幕格式分類，編碼轉換，英文識別，資料清理等過程後，得到對應於114198部影視作品的225190份英文字幕檔案。

二、資料分析

1. 英文字幕中有多少GRE單詞？

絕大部分英文字幕包涵0-300個GRE單詞，平均值108，方差52，機率分佈如下圖。GRE單詞最多的單個字幕檔案來自於莎翁的《哈姆萊特/Hamlet》，內含915個GRE單詞，難怪讓人如痴如醉！所謂“一千個讀者，就有一千個哈姆萊特”，大概是……看到這些單詞不認識啊！所以就只好亂猜啦，然後每個人都猜得不一樣！反正本寶寶是看得醉了……

2. 最“學術”的十大影視作品

有的作品包含GRE單詞比較多，但時間也很長。到底哪些影視的“價效比”最高呢？根據GRE單詞佔所有英文詞條的比例排序，以下列出10大最“學術”（GRE單詞佔比最高）的影視作品供參考。其中有來自莎翁的作品有三部——《哈姆萊特/Hamlet》，《麥克白/Macbeth》和《奧塞羅/Othello》，平均每4個不同單詞裡面就有一個可以在紅寶書裡找到！現在，你們知道誰是真正的GRE狂魔了麼！！！

經常有一種錯覺，那些喜歡看紀錄片的同學都逼格很高。現在知道，這並不是錯覺！在top 10高頻GRE電影中，六成是來自Discovery，國家地理和BBC的紀錄片。所以，人家用來思考說話的語言就已經和凡人拉開檔次了好嘛！

11萬部影視作品揭秘，掌握過半GRE單詞，居然只需看懂20部電影？

一、資料來源

二、資料分析

附解壓縮所有字幕壓縮包詳情程式碼：

相關推薦

熱門標籤

熱門文章

分享創造快樂