歡迎光臨
每天分享高質量文章

從資料角度探究《前任3》為什麼這麼火爆

採集豆瓣影評

流程如下:

  • 建立一個Scrapy專案;

  • 定義提取的Item;

  • 編寫爬取網站的 spider 並提取 Item;

  • 編寫 Item Pipeline 來儲存提取到的Item(即資料)。

  • 提取資料庫資料,處理展示

  • 建立專案,終端輸入

  • 專案結構(不包括後續配置)

  • scrapy中cookies的寫法,可以與request中cookie的寫法對比下

這裡我用了兩種方法解決這個問題,第一個是加cookie,效果不太理想,我換了第二種採用登入的方式。

  • 由於在登入過程中可能需要輸入驗證碼,目前採用把驗證碼圖片儲存至本地手動輸入
    (藉助一些打碼平臺可以實現自動識別驗證碼輸入,收費)

詞雲和分佈圖展示

本來是想用至尊寶做一個詞雲圖的,找了好久沒找到素材,就用了之前我的一張桌布

話說,詞雲圖好像並不能看出什麼~而分佈圖表達的結果也並不直觀,那就代表本次的結果沒有什麼卵用,個人覺得是因為資料量太小了,而且詞雲圖本身對資料展示的結果只能看出高頻詞而已…

時光無法回頭,人生也不能重來,珍惜眼前人。

千萬不要得到的時候在毀,失去的時候在悔!

作者:_知幾

源自:https://ask.hellobi.com/blog/zhiji/11170

宣告:文章著作權歸作者所有,如有侵權,請聯絡小編刪除

Github地址:https://github.com/ReainL/douban_qrs

贊(0)

分享創造快樂