Python神技能 | 使用爬蟲獲取汽車之家全車型資料-知識星球

最近想在工作相關的專案上做技術改進，需要全而準的車型資料，尋尋覓覓而不得，所以就只能自己動手豐衣足食，到網上獲（竊）得（取）資料了。

汽車之家是大家公認的資料做的比較好的汽車網站，所以就用它吧。（感謝汽車之家的大大們這麼用心地做資料，仰慕）

俗話說的好，“十爬蟲九python”，作為一隻java狗，我顫顫巍巍地拿起了python想要感受一下scrapy的強大。。。

在寫這個爬蟲之前，我用urllib2,BeautifulSoup寫了一個版本，不過效率太差，而且還有記憶體上限溢位的問題，作為python小白感覺很無力，所以用scrapy才是正道。

嗯，開搞。

準備工作

安裝python，版本是2.7
安裝scrapy模組, 版本是1.4.0

參考

汽車之家車型資料爬蟲[https://github.com/LittleLory/codePool/tree/master/python/autohome_spider]：這是我工程的程式碼，以下內容需要參照著程式碼來理解，就不貼程式碼在這裡了。

Scrapy中文檔案：這是Scrapy的中文檔案，具體細節可以參照檔案。感謝Summer同學的翻譯。

Xpath教程：解析頁面資料要用到xpath的語法，簡單瞭解一下，在做的過程中遇到問題去查一下就可以了。

初始化工程

scrapy工程的初始化很方便，在shell中的指定目錄下執行scrapy start startproject 專案名稱，就自動化生成了。

執行這步的時候遇到了一個問題，丟擲了異常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1"，解決方法是執行sudo pip install twisted==13.1.0，應該是依賴庫版本不相容。

目錄結構

工程初始化後，scrapy中的各個元素就被構建好了，不過構建出來的是一副空殼，需要我們往裡邊寫入我們的爬蟲邏輯。

初始化後的目錄結構是這樣的：

spiders:爬蟲目錄，爬蟲的爬取邏輯就放在個目錄下邊
items.py:資料物體類，在這裡定義我們爬到的資料結構
middlewares.py:爬蟲中介軟體（我自己翻譯的哈），在這裡定義爬取前、爬取後需要處理的邏輯
pipelines.py:資料管道，爬取後的資料物體會經過資料管道的處理
settings.py:配置檔案，可以在這裡配置爬蟲的爬取速度，配置中介軟體、管道是否開啟和先後順序，配置資料輸出的格式等。

瞭解過這些檔案的作用後就可以開始寫爬蟲了。

開始吧！

首先，確定要爬取的標的資料。

我的標的是獲取汽車的品牌、車系、車型資料，先從品牌開始。

在汽車之家的頁面中尋覓一番後，找到了一個爬蟲的切入點，汽車之家車型大全。這個頁面裡有所有品牌的資料，正是我的標的。不過在觀察的過程中發現，這個頁面裡的品牌資料是在頁面向下滾動的過程中延遲載入的，這樣我們透過請求這個頁面不能獲取到延遲載入的那部分資料。不過不要慌，看一下延遲載入的方式是什麼樣的。

開啟瀏覽器控制檯的網路請求面板，滾動頁面來觸發延遲載入，發現瀏覽器發送了一個非同步請求：

複製請求的URL看看：

http://www.autohome.com.cn/grade/carhtml/B.html
http://www.autohome.com.cn/grade/carhtml/C.html
http://www.autohome.com.cn/grade/carhtml/D.html

找到規律了，每一次載入的URL，都只是改變了對應的字母，所以對A到Z分別請求一次就取到了所有的品牌資料。

開啟http://www.autohome.com.cn/grade/carhtml/B.html看下，發現頁面的資料很規整，是按照品牌-廠商-車系的層級組織的。嗯，正合我意，那就開爬吧。

編寫Spider

在spiders目錄下邊，新建一個brand_spider.py檔案，在檔案中定義BrandSpider類，這個類繼承了scrapy.Spider類，這就是scrapy的Spider類。在BrandSpider中，需要宣告name變數，這是這個爬蟲的ID；還需要宣告start_urls，這是爬蟲的起點連結；再定義一個parse方法，裡面實現爬蟲的邏輯。

parse方法的入參中，response就是對start_urls中的連結的請求響應資料，我們要爬取的品牌資料就在這裡面，我們需要從response中提取出來。從response提取資料需要使用xpath語法，參考上邊的xpath教程。

提取資料之前，需要先給品牌資料定義一個物體類，因為需要把品牌資料存到資料物體中並落地到磁碟。在items.py檔案中定義一個BrandItem類，這個類繼承了scrapy.Item類，類中宣告了爬取到的、要落地的品牌相關資料，這就是scrapy的Item類。

定義好品牌物體後，在parse方法中宣告一個BrandItem實體，然後透過reponse.xpath方法取到想要的品牌ID、品牌url、品牌名稱、圖示url等資料，並設定到BrandItem實體中，最後透過yield來聚合爬取到的各個品牌資料並傳回，傳回的資料會進入pipeline。

編寫Pipeline

爬取到的資料接著被pipeline.py檔案中定義的Pipeline類處理，這個類通常是對傳入的Item物體做資料的清洗、排重等工作，可以定義多個Pipeline，依次對Item處理。由於暫時沒有這方面的需要，就不改寫這個檔案，保持預設狀態就好。經過pipeline的處理後，資料進入資料集。

輸出csv格式資料

對於爬取到的車型資料，我想以csv的格式輸出，並且輸出到指定目錄下，此時需要修改settings.py檔案。

在settings.py中新增FEED_FORMAT = 'csv'和FEED_URI = 'data/%(name)s_%(time)s.csv'兩項，目的是指定輸出格式為csv，輸出到data目錄下，以”爬蟲名稱_爬取時間.csv“格式命名。

執行爬蟲

品牌資料的爬蟲編寫完成了，在專案根目錄下執行scrapy crawl brand，不出意外的話，在執行了brand爬蟲後，會在data目錄下出現一個新的csv檔案，並且裝滿了品牌資料。

小心被遮蔽

不過需要註意一個問題，就是當爬蟲高頻地請求網站介面的時候，有可能會被網站識別出來並且遮蔽掉，因為太高頻的請求會對網站的伺服器造成壓力，所以需要對爬蟲限速。

在settings.py中新增DOWNLOAD_DELAY = 3，限制爬蟲的請求頻率為平均3秒一次。

另外，如果爬蟲傳送的請求頭中沒有設定user agent也很容易被遮蔽掉，所以要對請求頭設定user agent。

在專案根目錄下新建user_agent_middlewares.py檔案，在檔案中定義UserAgentMiddleware類，繼承了UserAgentMiddleware類。在UserAgentMiddleware中宣告user_agent_list，存放一些常用的user agent，然後重寫process_request方法，在user_agent_list中隨機選取user agent寫入請求頭中。

車系、車型爬蟲

車系爬蟲與上邊的品牌爬蟲類似，實現在spiders/series_spider.py中。

車型爬蟲稍微複雜一些，實現在spiders/model_spider.py中。車型爬蟲要從頁面中解析出車型資料，同時要解析出更多的URL新增到請求佇列中。而且，車型爬蟲爬取的頁面並不像品牌資料頁面那麼規整，所以要根據URL的特徵以及頁面中的特徵來調整解析策略。因此在這裡用到了CrawlSpider和Rules，具體參照Spider檔案。

總結

以上就實現了一個簡單的汽車之家的車型資料爬蟲，其中用到了scrapy中的部分元素，當然還有很多元素沒有涉及到，不過對於一個簡單爬蟲來說足矣。

Tip

在用xpath解析頁面的時候，寫出來的xpath陳述句很可能與預期不符，而且除錯起來很麻煩，我是用以下方式來提高效率的：

使用chrome上的XPath Helper外掛。安裝好外掛，開啟標的頁面，按command+shift+x（mac版的快捷鍵）開啟外掛面板，在面板裡輸入xpath陳述句，就能看到取到的結果了：
使用scrapy shell除錯。在工程目錄下執行scrapy shell http://www.xxxxx.xx，之後就會進入python的互動終端，這時就可以進行除錯了。執行print response.xpath('xxxxx')來驗證xpath陳述句是否符合預期。

作者：littlelory

分享想法到看一看

</div><br />
<p><span class=”like_comment_msg” id=”js_b_like_comment_msg” style=”visibility: hidden;”>最多200字，當前共<span id=”js_b_like_current_cnt”/>字</span><br />
</div><br />
</div><br />
<div class=”like_comment_primary_mask” id=”js_mask_2″/><br />
</div><br />
<div id=”js_loading” style=” display: none;”><br />
<div class=”weui-mask_transparent”/><br />
<div class=”weui-toast”><br />
<i class=”weui-loading weui-icon_toast”/></p><br />
<p class=”weui-toast__content”>傳送中</p><br />
</div><br />
</div><br />
<div id=”js_fail” style=”display:none”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”><br />
        網路異常，請稍後重試    </div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:;” id=”js_fail_inform”>知道了</a><br />
</div><br />
</div><br />
</div><br />
<div class=”weui-desktop-popover weui-desktop-popover_pos-up-center weui-desktop-popover_img-text” id=”js_pc_weapp_code” style=”display: none;”><br />
<div class=”weui-desktop-popover__content”><br />
<div class=”weui-desktop-popover__desc”><br />
<img id=”js_pc_weapp_code_img”/><br /><br />
            微信掃一掃<br/>使用小程式<span id=”js_pc_weapp_code_des”/> </div><br />
</div><br />
</div><br />
<div id=”js_minipro_dialog” style=”display:none;”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”>即將開啟”<span id=”js_minipro_dialog_name”/>”小程式</div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_default” href=”javascript:void(0);” id=”js_minipro_dialog_cancel”>取消</a><br /><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:void(0);” id=”js_minipro_dialog_ok”>開啟</a><br />
</div><br />
</div><br />
</div><br />
</div><br />

Python神技能 | 使用爬蟲獲取汽車之家全車型資料

首先，確定要爬取的標的資料。

朋友將在看一看看到

分享想法到看一看

相關推薦

熱門標籤

熱門文章

分享創造快樂