歡迎光臨
每天分享高質量文章

12行Python暴力爬《黑豹》豆瓣短評

作者:黃嘉鋒

來源:見文末

往往不少童鞋寫論文苦於資料獲取艱難,輾轉走上爬蟲之路;

許多分析師做輿情監控或者競品分析的時候,也常常使用到爬蟲。

今天,本文將帶領小夥伴們透過12行簡單的Python程式碼,初窺爬蟲的秘境。

爬蟲標的


本文采用requests + Xpath,爬取豆瓣電影《黑豹》部分短評內容。話不多說,程式碼先上:

import requests; from lxml import etree; import pandas as pd; import time; import random; from tqdm import tqdm
name, score, comment = [], [], []
def danye_crawl(page):
   url = 'https://movie.douban.com/subject/6390825/comments?start=%s&limit;=20&sort;=new_score&status;=P&percent;_type='%(page*20)
   response = etree.HTML(requests.get(url).content.decode('utf-8'))
   print('\n', '第%s頁評論爬取成功'%(page)) if requests.get(url).status_code == 200 else print('\n', '第%s頁爬取失敗'(page))
   for i in range(1,21):
       name.append(response.xpath('//*[@id="comments"]/div[%s]/div[2]/h3/span[2]/a'%(i))[0].text)
       score.append(response.xpath('//*[@id="comments"]/div[%s]/div[2]/h3/span[2]/span[2]'%(i))[0].attrib['class'][7])
       comment.append(response.xpath('//*[@id="comments"]/div[%s]/div[2]/p'%(i))[0].text)
for i in tqdm(range(11)): danye_crawl(i); time.sleep(random.uniform(6, 9))
res = pd.DataFrame({'name':name, 'score':score, 'comment':comment},columns = ['name','score','comment']); res.to_csv("豆瓣.csv")

執行以上的爬蟲指令碼,我們得以見證奇跡

爬蟲結果與原網頁內容的對比,完全一致

透過tqdm模組實現了良好的互動

工具準備

  • chrome瀏覽器(分析HTTP請求、抓包)

  • 安裝Python 3及相關模組(requests、lxml、pandas、time、random、tqdm)
    requests:用來簡單請求資料
    lxml:比Beautiful Soup更快更強的解析庫
    pandas:資料處理神器
    time:設定爬蟲訪問間隔防止被抓
    random:隨機數生成工具,配合time使用
    tqdm:互動好工具,顯示程式執行進度

基本步驟


  1. 網路請求分析

  2. 網頁內容解析

  3. 資料讀取儲存

涉及知識點

  • 爬蟲協議

  • http請求分析

  • requests請求

  • Xpath語法

  • Python基礎語法

  • Pandas資料處理

爬蟲協議

爬蟲協議即網站根目錄之下的robots.txt檔案,用來告知爬蟲者哪些可以拿哪些不能偷,其中Crawl-delay告知了網站期望的被訪問的間隔。(為了對方伺服器端同學的飯碗,文明拿資料,本文將爬蟲訪問間隔設定為6-9秒的隨機數)

豆瓣網站的爬蟲協議

HTTP請求分析

使用chrome瀏覽器訪問《黑豹》短評頁面https://movie.douban.com/subject/6390825/comments?sort=new_score&status;=P,按下F12,進入network面板進行網路請求的分析,透過掃清網頁重新獲得請求,藉助chrome瀏覽器對請求進行篩選、分析,找到那個Ta

豆瓣短評頁面請求分析

透過請求分析,我們找到了標的url為
‘https://movie.douban.com/subject/6390825/comments?start=0&limit;=20&sort;=new_score&status;=P&percent;_type=’,並且每次翻頁,引數start將往上增加20
(透過多次翻頁嘗試,我們發現第11頁以後需要登入才能檢視,且登入狀態也僅展示前500條短評。作為簡單demo,本文僅對前11頁內容進行爬取)

requests請求

透過requests模組傳送一個get請求,用content方法獲取byte型資料,並以utf-8重新編碼;然後新增一個互動,判斷是否成功獲取到資源(狀態碼為200),輸出獲取狀態

請求詳情分析

(除了content,還有text方法,其傳回unicode字符集,直接使用text方法遇到中文的話容易出現亂碼)

Xpath語法解析

獲取到資料之後,需要對網頁內容進行解析,常用的工具有正則運算式、Beautiful Soup、Xpath等等;其中Xpath又快又方便。此處我們透過Xpath解析資源獲取到了前220條短評的使用者名稱、短評分數、短評內容等資料。
(可藉助chrome的強大功能直接複製Xpath,Xpath語法學習http://www.runoob.com/xpath/xpath-tutorial.html)

資料處理

獲取到資料之後,我們透過list構造dictionary,然後透過dictionary構造dataframe,並透過pandas模組將資料輸出為csv檔案

結語與彩蛋

本例透過requests+Xpath的方案,成功爬取了電影《黑豹》的部分豆瓣短評資料,為文字分析或其他資料挖掘工作打好了資料地基。
本文作為demo,僅展示了簡單的爬蟲流程,更多彩蛋如請求頭、請求體資訊獲取、cookie、模擬登入、分散式爬蟲等請關註後期文章更新喲。

最後,送上白話文版的程式碼:

import requests
from lxml import etree
import pandas as pd
import time
import random
from tqdm import tqdm

name, score, comment = [], [], []

def danye_crawl(page):
   url = 'https://movie.douban.com/subject/6390825/comments?start=%s&limit;=20&sort;=new_score&status;=P&percent;_type='%(page*20)
   response = requests.get(url)
   response = etree.HTML(response.content.decode('utf-8'))
   if requests.get(url).status_code == 200:
       print('\n', '第%s頁評論爬取成功'%(page))
   else:
       print('\n', '第%s頁爬取失敗'(page))

   for i in range(1,21):
       name_list = response.xpath('//*[@id="comments"]/div[%s]/div[2]/h3/span[2]/a'%(i))
       score_list = response.xpath('//*[@id="comments"]/div[%s]/div[2]/h3/span[2]/span[2]'%(i))
       comment_list = response.xpath('//*[@id="comments"]/div[%s]/div[2]/p'%(i))

       name_element = name_list[0].text
       score_element = score_list[0].attrib['class'][7]
       comment_element = comment_list[0].text

       name.append(name_element)
       score.append(score_element)
       comment.append(comment_element)

for i in tqdm(range(11)):
   danye_crawl(i)
   time.sleep(random.uniform(6, 9))

res = {'name':name, 'score':score, 'comment':comment}
res = pd.DataFrame(res, columns = ['name','score','comment'])
res.to_csv("豆瓣.csv")

作者:黃嘉鋒

來源:https://www.jianshu.com/p/ea0b56e3bd86

本文轉載自:Python那些事


《Python人工智慧和全棧開發》2018年07月23日即將在北京開課,120天衝擊Python年薪30萬,改變速約~~~~

*宣告:推送內容及圖片來源於網路,部分內容會有所改動,版權歸原作者所有,如來源資訊有誤或侵犯權益,請聯絡我們刪除或授權事宜。

– END –


更多Python好文請點選【閱讀原文】哦

↓↓↓

贊(0)

分享創造快樂