Python爬蟲|你真的會寫爬蟲嗎？-知識星球

寫在前面的話

咱們直接進入今天的主題—你真的會寫爬蟲嗎？為啥標題是這樣，因為我們日常寫小爬蟲都是一個py檔案加上幾個請求，但是如果你去寫一個正式的專案時，你必須考慮到很多種情況，所以我們需要把這些功能全部模組化，這樣也使我們的爬蟲更加的健全。

基礎爬蟲的架構以及執行流程

首先，給大家來講講基礎爬蟲的架構到底是啥樣子的？JAP君給大家畫了張粗糙的圖：

從圖上可以看到，整個基礎爬蟲架構分為5大類：爬蟲排程器、URL管理器、HTML下載器、HTML解析器、資料儲存器。

下麵給大家依次來介紹一下這5個大類的功能：

爬蟲排程器，主要是配合呼叫其他四個模組，所謂排程就是取呼叫其他的模板
URL管理器，就是負責管理URL連結的，URL連結分為已經爬取的和未爬取的，這就需要URL管理器來管理它們，同時它也為獲取新URL連結提供介面。
HTML下載器，就是將要爬取的頁面的HTML下載下來
HTML解析器，就是將要爬取的資料從HTML原始碼中獲取出來，同時也將新的URL連結傳送給URL管理器以及將處理後的資料傳送給資料儲存器。
資料儲存器，就是將HTML下載器傳送過來的資料儲存到本地

實戰爬取菜鳥筆記資訊

差不多就介紹這麼些東西，相信大家對整體的架構有了初步的認識，下麵我簡單找了個網站給大家演示一遍用爬蟲架構來爬取資訊：

（標的站點）

我們來獲取上面串列中的資訊，這裡我就省略了分析網站的一步，如果大家不會分析，可以去看我之前寫的爬蟲專案。

首先，我們來寫一下URL管理器（URLManage.py）

class URLManager(object):    def __init__(self):        self.new_urls = set()        self.old_urls = set()
    def has_new_url(self):        # 判斷是否有未爬取的url        return self.new_url_size()!=0
    def get_new_url(self):        # 獲取一個未爬取的連結        new_url = self.new_urls.pop()        # 提取之後，將其新增到已爬取的連結中        self.old_urls.add(new_url)        return new_url
    def add_new_url(self, url):        # 將新連結新增到未爬取的集合中(單個連結)        if url is None:            return        if url not in self.new_urls and url not in self.old_urls:            self.new_urls.add(url)
    def add_new_urls(self,urls):        # 將新連結新增到未爬取的集合中(集合)        if urls is None or len(urls)==0:            return        for url in urls:            self.add_new_url(url)
    def new_url_size(self):        # 獲取未爬取的url大小        return len(self.new_urls)
    def old_url_size(self):        # 獲取已爬取的url大小        return len(self.old_urls)

在這裡主要就是兩個集合，一個是已爬取URL的集合，另一個是未爬取URL的集合。這裡我使用的是set型別，因為set自帶去重的功能。

接下來，HTML下載器（HTMLDownload.py）

import requestsclass HTMLDownload(object):    def download(self, url):        if url is None:            return        s = requests.Session()        s.essay-headers['User-Agent'] ='Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 63.0.3239.132Safari / 537.36'        res = s.get(url)        # 判斷是否正常獲取        if res.status_code == 200:            res.encoding='utf-8'            res = res.text            return res        return None

可以看到這裡我們只是簡單的獲取了，url中的html原始碼

接著看HTML解析器（HTMLParser.py）

import refrom bs4 import BeautifulSoupclass HTMLParser(object):
    def parser(self, page_url, html_cont):        '''        用於解析網頁內容，抽取URL和資料        :param page_url: 下載頁面的URL        :param html_cont: 下載的網頁內容        :return: 傳回URL和資料        '''        if page_url is None or html_cont is None:            return        soup = BeautifulSoup(html_cont, 'html.parser')        new_urls = self._get_new_urls(page_url, soup)        new_data = self._get_new_data(page_url, soup)        return new_urls, new_data
    def _get_new_urls(self,page_url,soup):        '''        抽取新的URL集合        :param page_url:下載頁面的URL        :param soup: soup資料        :return: 傳回新的URL集合        '''        new_urls = set()        for link in range(1,100):            # 新增新的url            new_url = "http://www.runoob.com/w3cnote/page/"+str(link)            new_urls.add(new_url)            print(new_urls)        return new_urls
    def _get_new_data(self,page_url,soup):         '''         抽取有效資料         :param page_url:下載頁面的url         :param soup:         :return: 傳回有效資料         '''         data={}         data['url'] = page_url         title = soup.find('div', class_='post-intro').find('h2')         print(title)         data['title'] = title.get_text()         summary = soup.find('div', class_='post-intro').find('p')         data['summary'] = summary.get_text()         return data

在這裡，我們將HTML下載器的原始碼進行了分析和解析，從而得到了我們想要拿到的資料，如果BeautifulSoup不懂的可以去看一下我之前寫的文章。

繼續看，資料儲存器（DataOutput.py）

import codecsclass DataOutput(object):
    def __init__(self):        self.datas = []
    def store_data(self,data):        if data is None:            return        self.datas.append(data)
    def output_html(self):        fout = codecs.open('baike.html', 'a', encoding='utf-8')        fout.write("")        fout.write("")        fout.write("")        fout.write("

”

)        for data in self.datas:            fout.write(""

)            fout.write("%s

“%data[‘url’])

            fout.write("《%s》

” % data[‘title’])

            fout.write("[%s]

” % data[‘summary’])

            fout.write("

“) self.datas.remove(data) fout.write("“) fout.write("“) fout.write("“) fout.close()

大家可能發現我這裡是將資料儲存到一個html的檔案當中，在這裡你當然也可以存在Mysql或者csv等檔案當中，這個看自己的選擇，我這裡只是為了演示所以就放在了html當中。

最後一個，爬蟲排程器（SpiderMan.py）

from base.DataOutput import DataOutputfrom base.HTMLParser import HTMLParserfrom base.HTMLDownload import HTMLDownloadfrom base.URLManager import URLManager
class SpiderMan(object):    def __init__(self):        self.manager = URLManager()        self.downloader = HTMLDownload()        self.parser = HTMLParser()        self.output = DataOutput()

    def crawl(self, root_url):        # 新增入口URL        self.manager.add_new_url(root_url)        # 判斷url管理器中是否有新的url，同時判斷抓取多少個url        while(self.manager.has_new_url() and self.manager.old_url_size()<100):            try:                # 從URL管理器獲取新的URL                new_url = self.manager.get_new_url()                print(new_url)                # HTML下載器下載網頁                html = self.downloader.download(new_url)                # HTML解析器抽取網頁資料                new_urls, data = self.parser.parser(new_url, html)                print(new_urls)                # 將抽取的url新增到URL管理器中                self.manager.add_new_urls(new_urls)                # 資料儲存器儲存檔案                self.output.store_data(data)                print("已經抓取%s個連結" % self.manager.old_url_size())            except Exception as e:                print("failed")                print(e)            # 資料儲存器將檔案輸出成指定的格式            self.output.output_html()

if __name__ == '__main__':    spider_man = SpiderMan()    spider_man.crawl("http://www.runoob.com/w3cnote/page/1")

相信這裡大家都能看懂，我就是將前面我們寫的四個模板在這裡把它們呼叫了一下，我們執行後的結果：

總結

我們這裡簡單的講解了一下，爬蟲架構的五個模板，無論是大型爬蟲專案還是小型的爬蟲專案都離不開這五個模板，希望大家能夠照著這些程式碼寫一遍，這樣有利於大家的理解，大家以後寫爬蟲專案也要按照這種架構去寫，這樣你的爬蟲看起來就會更加的規範、健全。

釋出到看一看

</div><br />
<p><span class=”like_comment_msg” id=”js_b_like_comment_msg” style=”visibility: hidden;”>最多200字，當前共<span id=”js_b_like_current_cnt”/>字</span><br />
</div><br />
</div><br />
<div class=”like_comment_primary_mask” id=”js_mask_2″/><br />
</div><br />
<div id=”js_loading” style=” display: none;”><br />
<div class=”weui-mask_transparent”/><br />
<div class=”weui-toast”><br />
<i class=”weui-loading weui-icon_toast”/></p><br />
<p class=”weui-toast__content”>傳送中</p><br />
</div><br />
</div><br />
<div id=”js_fail” style=”display:none”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”><br />
        網路異常，請稍後重試    </div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:;” id=”js_fail_inform”>知道了</a><br />
</div><br />
</div><br />
</div><br />
<div class=”weui-desktop-popover weui-desktop-popover_pos-up-center weui-desktop-popover_img-text” id=”js_pc_weapp_code” style=”display: none;”><br />
<div class=”weui-desktop-popover__content”><br />
<div class=”weui-desktop-popover__desc”><br />
<img id=”js_pc_weapp_code_img”/><br /><br />
            微信掃一掃<br/>使用小程式<span id=”js_pc_weapp_code_des”/> </div><br />
</div><br />
</div><br />
<div id=”js_minipro_dialog” style=”display:none;”><br />
<div class=”weui-mask”/><br />
<div class=”weui-dialog”><br />
<div class=”weui-dialog__bd”>即將開啟”<span id=”js_minipro_dialog_name”/>”小程式</div><br />
<div class=”weui-dialog__ft”><br />
<a class=”weui-dialog__btn weui-dialog__btn_default” href=”javascript:void(0);” id=”js_minipro_dialog_cancel”>取消</a><br /><br />
<a class=”weui-dialog__btn weui-dialog__btn_primary” href=”javascript:void(0);” id=”js_minipro_dialog_ok”>開啟</a><br />
</div><br />
</div><br />
</div><br />
</div><br />

Python爬蟲|你真的會寫爬蟲嗎？

朋友會在“發現-看一看”看到你“在看”的內容

朋友將在看一看看到

釋出到看一看

相關推薦

熱門標籤

熱門文章

分享創造快樂