爬了B站17398條評論，告訴你這部9.7分動漫為什麼大受追捧-知識星球

導讀：動漫《工作細胞》在b站上評分高達9.7。除了口碑之外，熱度也居高不下，更值得關註的是連很多平時不關註動漫的小夥伴也加入了追番大軍。這次我們的標的是爬取b站上的所有短評進行分析，用資料說明為什麼這部動漫會如此受歡迎。

作者：量化小白H

來源：量化小白上分記（ID：quanthzp）

01 工作細胞

《工作細胞》改編自清水茜老師的同名漫畫，由David Production製作。眾所周知，日本ACG作品向來信奉著“萬物皆可萌”的原則。前有《黑塔利亞》，後有《艦隊Collection》和《獸娘動物園》，分別講述了將國家，戰艦和動物擬人化後的故事。而在《工作細胞》裡擬人的物件則輪到了我們的細胞。

這是一個發生在人體內的故事：

人的細胞數量，約為37兆2千億個。

其中包括了我們的女主角：一個副業是運輸氧氣，主業是迷路的紅血球。

男主角：一個作者懶得塗色但武力值max的白血球。兩人一見面就並肩戰鬥，分別的時候更是滿天粉紅氣泡。

雖然嘴上說著：不會，我只是千千萬萬個白細胞中的一員。身體卻很誠實，從第一集偶遇女主到最後一集，每一集都充滿了狗糧的味道。37兆分之一的緣分果然妙不可言。

除了男女主角，配角們的人氣也都很高。連反派boss癌細胞都有人喜歡，主要還是因為身世感人+臉長得好。當然人氣最！最！最！高的還是我們奶聲奶氣的血小板。

據宅男們反映：“看了這麼多番。只有這一部的老婆是大家真正擁有的。”不僅有，還有很多。

除了新穎的科普形式，這部番令人感觸最深的是：我們每一個人都不是孤獨的個體，有37兆個只屬於我們的細胞和我們一同工作不息。每當頹唐和失意的時候，為了那些為了保護你而戰鬥不止的免疫細胞，為了萌萌的老婆們也要振作起來啊。

《工作細胞》的成功並不是一個偶然，而是眾多因素共同作用的結果。下麵從資料的角度分析它成為今年7月播放冠軍的原因。

02 爬蟲

首先要做的是爬取b站的所有短評，包括評論使用者名稱、評論時間、星級（評分）、評論內容、點贊數等內容，本部分內容為爬蟲程式碼的說明，不感興趣的讀者可以直接跳過，閱讀下一部分的分析。

爬的過程寫了很久，b站短評不需要登陸直接就可以爬，剛開始用類似之前爬豆瓣的方法，用Selenium+xpath定位爬：

但b站短評用這種方法並不好處理。網站每次最多顯示20條短評，捲軸移動到最下麵才會載入之後的20條，所以剛開始用了每次爬完之後將定位到當前爬的位置的方法，這樣定位到當前載入的最後一條時，就會載入之後的20條短評。

邏輯上是解決了這個問題，但真的爬的時候就出現了問題，一個是爬的慢，20條需要十來秒的樣子，這個沒關係，大不了爬幾個小時，但問題是辛辛苦苦爬了兩千多條之後，就自動斷了，不知道是什麼原因。

雖然之前爬的資料都存下來了，但沒法接著斷開的地方接著爬，又要重新開始，還不知道會不會又突然斷，所以用這種方法基本就無解了。

程式碼附在下麵，雖然是失敗的，但也可以爬一些評論下來，供參考。

 1# -*- coding: utf-8 -*-
 2"""
 3Created on Mon Sep 10 19:36:24 2018
 4"""
 5from selenium import webdriver
 6import pandas as pd
 7from datetime import datetime
 8import numpy as np
 9import time
10import os
11
12os.chdir('F:\python_study\pachong\工作細胞')
13def gethtml(url):
14
15    browser = webdriver.PhantomJS()    
16    browser.get(url)
17    browser.implicitly_wait(10)
18    return(browser)
19
20def getComment(url):
21
22    browser =  gethtml(url)
23    i = 1
24    AllArticle = pd.DataFrame(columns = ['id','author','comment','stars1','stars2','stars3','stars4','stars5','unlike','like'])
25    print('連線成功，開始爬取資料')    
26    while True:
27
28        xpath1 = '//*[@id="app"]/div[2]/div[2]/div/div[1]/div/div/div[4]/div/div/ul/li[{}]'.format(i)
29        try:
30            target = browser.find_element_by_xpath(xpath1)
31        except:
32            print('全部爬完')
33            break
34
35        author = target.find_element_by_xpath('div[1]/div[2]').text
36        comment = target.find_element_by_xpath('div[2]/div').text
37        stars1 = target.find_element_by_xpath('div[1]/div[3]/span/i[1]').get_attribute('class')
38        stars2 = target.find_element_by_xpath('div[1]/div[3]/span/i[2]').get_attribute('class')
39        stars3 = target.find_element_by_xpath('div[1]/div[3]/span/i[3]').get_attribute('class')
40        stars4 = target.find_element_by_xpath('div[1]/div[3]/span/i[4]').get_attribute('class')
41        stars5 = target.find_element_by_xpath('div[1]/div[3]/span/i[5]').get_attribute('class')
42        date = target.find_element_by_xpath('div[1]/div[4]').text
43        like = target.find_element_by_xpath('div[3]/div[1]').text
44        unlike = target.find_element_by_xpath('div[3]/div[2]').text
45
46
47        comments = pd.DataFrame([i,author,comment,stars1,stars2,stars3,stars4,stars5,like,unlike]).T
48        comments.columns = ['id','author','comment','stars1','stars2','stars3','stars4','stars5','unlike','like']
49        AllArticle = pd.concat([AllArticle,comments],axis = 0)
50        browser.execute_script("arguments[0].scrollIntoView();", target)
51        i = i + 1
52        if i%100 == 0:
53            print('已爬取{}條'.format(i))
54    AllArticle = AllArticle.reset_index(drop = True)
55    return AllArticle
56
57url = 'https://www.bilibili.com/bangumi/media/md102392/?from=search&seid;=8935536260089373525#short'
58result = getComment(url)
59#result.to_csv('工作細胞爬蟲.csv',index = False)

這種方法爬取失敗之後，一直不知道該怎麼處理，剛好最近看到網上有大神爬貓眼評論的文章，照葫蘆畫瓢嘗試了一下，居然成功了，而且爬的速度也很快，十來分鐘就全爬完了，思路是找到評論對應的Json檔案，然後獲取Json中的資料，過程如下。

在Google瀏覽器中按F12開啟卡發者工具後，選擇Network：

往下滑動，會發現過一段時間，會出現一個fetch，右鍵開啟後發現，裡面就是20條記錄，有所有我們需要的內容，json格式。

所以現在需要做的就是去找這些json檔案的路徑的規律。多看幾條之後，就發現了規律：

第一個json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded;=0&page;_size=20&sort;=0

第二個json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded;=0&page;_size=20&sort;=0&cursor;=76553500953424

第三個json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded;=0&page;_size=20&sort;=0&cursor;=76549205971454

顯然所有的json路徑的前半部分都是一樣，都是在第一條json之後加上不同的cursor = xxxxx，所以只要能找到cursor值的規律，就可以用迴圈的辦法，爬完所有的json，這個值看上去沒什麼規律，最後發現，每一個json路徑中cursor值就藏在前一個json的最後一條評論中。

在python中可以直接把json轉成字典，cursor值就是最後一條評論中鍵cursor的值，簡直不要太容易。

所以爬的思路就很清晰了，從一個json開始，爬完20條評論後，獲取最後一個評論中的cursor值，更改路徑之後獲取第二個json，重覆上面的過程，直到爬完所有的json。

至於如何知道爬完了所有json，也很容易，每個json中一個total鍵，表示了當前一共有多少條評論，所以只需要寫一個while迴圈，當爬到的評論數達到total值時停止。

爬的過程中還發現，有些json中的評論數不夠20條，如果每次用20去定位，中間會報錯停止，需要註意一下。所以又加了一行程式碼，每次獲得json後，透過len()函式得到當前json中一共包含多少條評論，cursor在最後一個評論中。

以上是整個爬的思路，我們最終爬到以下資訊：

作者

author

評分/星級

score

不喜歡

disliked

點贊

likes

這個全0，沒用

liked

時間

ctime

評論

content

cursor

狀態

last_ep_index

需要說明的地方，一個是liked按照字面意思應該是使用者的點贊數，但爬完才發現全是0，沒有用。另一個是關於時間，裡面有ctime和mtime兩個跟時間有關的值，看了幾個，基本都是一樣的，有個別不太一樣，差的不多，就只取了ctime。

我猜可能一個是點選進去的時間，一個是評論提交時間，但沒法驗證，就隨便取一個算了。

ctime的編碼很奇怪，比如某一個是ctime = 1540001677，渣渣之前沒有見過這種編碼方式，請教了大佬之後知道，這個是Linux系統上的時間表示方式，是1970年1月1日0時0分0秒到當時時點的秒數，python中可以直接用time.gmtime()函式轉化成年月日小時分鐘秒的格式。

還有last_ep_index裡面存的是使用者當前的看劇狀態，比如看至第13話，第6話之類的，但後來發現很不準，絕大多數使用者沒有last_ep_index值，所以也沒有分析這個變數。

程式碼如下：

 1import requests
 2from fake_useragent import UserAgent
 3import json
 4import pandas as pd
 5import time
 6import datetime
 7essay-headers = { "User-Agent": UserAgent(verify_ssl=False).random}
 8comment_api = 'https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded;=0&page;_size=20&sort;=0'
 9
10# 傳送get請求
11response_comment = requests.get(comment_api,essay-headers = essay-headers)
12json_comment = response_comment.text
13json_comment = json.loads(json_comment)
14
15total = json_comment['result']['total']
16
17cols = ['author','score','disliked','likes','liked','ctime','score','content','last_ep_index','cursor']
18dataall = pd.DataFrame(index = range(total),columns = cols)
19
20
21j = 0
22while j 23    n = len(json_comment['result']['list'])
24    for i in range(n):
25        dataall.loc[j,'author'] = json_comment['result']['list'][i]['author']['uname']
26        dataall.loc[j,'score'] = json_comment['result']['list'][i]['user_rating']['score']
27        dataall.loc[j,'disliked'] = json_comment['result']['list'][i]['disliked']
28        dataall.loc[j,'likes'] = json_comment['result']['list'][i]['likes']
29        dataall.loc[j,'liked'] = json_comment['result']['list'][i]['liked']
30        dataall.loc[j,'ctime'] = json_comment['result']['list'][i]['ctime']
31        dataall.loc[j,'content'] = json_comment['result']['list'][i]['content']
32        dataall.loc[j,'cursor'] = json_comment['result']['list'][n-1]['cursor'] 
33        j+= 1
34    try:        
35        dataall.loc[j,'last_ep_index'] = json_comment['result']['list'][i]['user_season']['last_ep_index']
36    except:
37        pass
38
39    comment_api1 = comment_api + '&cursor;=' + dataall.loc[j-1,'cursor'] 
40    response_comment = requests.get(comment_api1,essay-headers = essay-headers)
41    json_comment = response_comment.text
42    json_comment = json.loads(json_comment)
43
44    if j % 50 ==0:
45        print('已完成 {}% !'.format(round(j/total*100,2)))
46    time.sleep(0.5)
47
48
49
50dataall = dataall.fillna(0)
51
52def getDate(x):
53    x = time.gmtime(x)
54    return(pd.Timestamp(datetime.datetime(x[0],x[1],x[2],x[3],x[4],x[5])))
55
56dataall['date'] = dataall.ctime.apply(lambda x:getDate(x))
57
58dataall.to_csv('bilibilib_gongzuoxibao.xlsx',index = False)