歡迎光臨
每天分享高質量文章

用 Python分析胡歌的《獵場》到底值不值得看?


11月6日,湖南衛視已經開播被稱作年度壓軸的大戲“獵場”,迅速占領各大榜單,成為一部高熱度的電視劇。但是在豆瓣上卻形成了兩極分化。截止11月8日,該劇在豆瓣上的評分為5.7分。相比較胡歌之前《琅琊榜》的9.1,《偽裝者》的8.3等來說,這一評分確實不高。有趣的是,首頁的評分比例與“短評”“劇評”的比例存在非常大的差異!

首頁總評分評分兩級分化嚴重,“差評”占主 在目前11463個評價中兩級分化嚴重,“1星”占比最高為28.6%,其次為“5星”的25.4%。“好評”(5星、4星)占比為35.80%,“一般”(3星)為16.50%,“差評”(2星、1星)占比為47.80%。很明顯,“差評”占了接近一半的比例。

《獵場》豆瓣評分占比分佈 在短評和劇評中的另一種景象 首頁的豆瓣評分中“差評”占比很高,但是在豆瓣的短評和劇評中卻是另一番景象。 在目前5979條短評中,“好評”占比71%,“一般”為5%,“差評”占比24%。而在392條劇評中,“5星”占了非常高的比例!84.7%的劇評給了“好評”。

《獵場》劇評評分分佈 我們將三個位置的評分放在一起比較就會出現非常明顯的差異。根據這個差異,我們可以大致判斷:寫出短評或者劇評的觀眾大部分給予了“好評”,但仍有大量觀眾直接給了差評,並沒有說明任何原因。當然,我們並沒有考慮那些不寫評論,而只是點“有用”和“沒用”觀眾。

才剛剛上映,劇情還在慢慢的鋪,所以現在給整部劇下定論還太早。

《獵場》到底好不好看?我們還是想通過以11月8日為界,看看人們短評人的情緒,是積極,還是消極。利用詞雲看看大家都說了什麼,希望能大家就是否建議觀看給出建議。

01 爬取《獵場》熱門短評 

豆瓣的反爬蟲做的比較好,不登錄爬蟲很快就會被屏蔽掉,登錄後獲取cookies 如下:

同時建議在迴圈抓取的時候進行sleep,例如:

time.sleep(1 + float(random.randint(1, 100)) / 20)

《獵場》熱門短評內容和時間爬取了22440條評論,代碼如下:

02 對資料進行清洗

樣本數量:

03 情感分析和詞雲

對熱門短評基於原有SnowNLP進行積極和消極情感分類,讀取每段評論並依次進行情感值分析,最後會計算出來一個0-1之間的值。

當值大於0.5時代表句子的情感極性偏向積極,當分值小於0.5時,情感極性偏向消極,當然越偏向兩邊,情緒越偏激。

2017-11-06 – 2017-11-08 分析:

從上圖情感分析來看,影評者還是還是非常積極的,對《獵場》的期望很高。

從詞雲上來看:

2017-11-09 – 2017-11-17分析

從上圖情感分析來看,積極的情緒已經遠遠超過消極的情緒,還是受到大家的好評。

從詞雲上來看,出現好看、劇情、期待、喜歡等詞。

04 總結

詞雲的背景是胡歌,大家看出來了嘛?目前豆瓣的分數已經是6.2分,目前劇情過半,相信接下來會更精彩,個人認為分數會在7.5分以上。

拋開豆瓣的推薦分數,通過的熱門短評的情感和詞雲分析,是一部不錯的現實劇,劇情犀利、深刻、啟迪,很多人期待。如果您有時間,不妨看一下,或許能收穫一些意想不到的東西。

來源:中國統計網

近期精彩活動(直接點擊查看):

福利 · 閱讀 | 免費申請讀大資料新書 第21期

END

投稿和反饋請發郵件至hzzy@hzbook.com。轉載大資料公眾號文章,請向原文作者申請授權,否則產生的任何版權糾紛與大資料無關。

大資料

為大家提供與大資料相關的最新技術和資訊。

長按指紋 > 識別圖中二維碼 > 添加關註

近期精彩文章(直接點擊查看):

華為內部狂轉好文,大資料,看這一篇就夠了!

讀完這100篇論文,你也是大資料高手!

如何建立資料分析的思維框架

百度內部培訓資料PPT:資料分析的道與術

論大資料的十大局限

打包帶走!史上最全的大資料分析和製作工具

資料揭秘:中國姓氏排行榜

程式猿分析了42萬字歌詞後,終於搞清楚民謠歌手唱什麼了

計算機告訴你,唐朝詩人之間的關係到底是什麼樣的?

資料分析:微信紅包金額分配的秘密

2000萬人口的大北京,上下班原來是這樣的(附超炫蝌蚪圖)

大資料等IT職業技能圖譜【全套17張,第2版】

不要跟賭場說謊,它真的比你老婆還瞭解你

如果看了這篇文章你還不懂傅里葉變換,那就過來掐死我吧

不做無效的營銷,從不做無效的用戶畫像開始

更多精彩文章,請在公眾號後臺點擊“歷史文章”查看,謝謝。

赞(0)

分享創造快樂