一天可抓取 1300 萬條資料的新浪微博爬蟲-知識星球

爬蟲功能：

此專案和QQ空間爬蟲類似，主要爬取新浪微博使用者的個人資訊、微博資訊、粉絲和關註（詳細見此：https://github.com/LiuXingMing/SinaSpider/tree/master/Sina_spider1）。
程式碼獲取新浪微博Cookie進行登入，可透過多賬號登入來防止新浪的反扒（用來登入的賬號可從淘寶購買，一塊錢七個）。
專案爬的是新浪微博wap站，結構簡單，速度應該會比較快，而且反扒沒那麼強，缺點是資訊量會稍微缺少一些（可見爬蟲福利：如何爬wap站）。
爬蟲抓取微博的速度可以達到 1300萬/天以上，具體要視網路情況，我使用的是校園網（廣工大學城校區），普通的家庭網路可能才一半的速度，甚至都不到。

環境、架構：

開發語言：Python2.7
開發環境：64位Windows8系統，4G記憶體，i7-3612QM處理器。
資料庫：MongoDB 3.2.0
（Python編輯器：Pycharm 5.0.4；MongoDB管理工具：MongoBooster 1.1.1）

主要使用 scrapy 爬蟲框架。
下載中介軟體會從Cookie池和User-Agent池中隨機抽取一個加入到spider中。
start_requests 中根據使用者ID啟動四個Request，同時對個人資訊、微博、關註和粉絲進行爬取。
將新爬下來的關註和粉絲ID加入到待爬佇列（先去重）。

使用說明：

啟動前配置：

MongoDB安裝好能啟動即可，不需要配置。
Python需要安裝好scrapy（64位的Python儘量使用64位的依賴模組）
另外用到的python模組還有：pymongo、json、base64、requests。
將你用來登入的微博賬號和密碼加入到 cookies.py 檔案中，裡面已經有兩個賬號作為格式參考了。
另外一些scrapy的設定（如間隔時間、日誌級別、Request執行緒數等）可自行在setting裡面調。

執行截圖：

資料庫說明：

SinaSpider主要爬取新浪微博的個人資訊、微博資料、關註和粉絲。資料庫設定 Information、Tweets、Follows、Fans四張表，此處僅介紹前面兩張表的欄位。

Information 表：
_id：採用 “使用者ID” 作為唯一標識。
Birthday：出生日期。
City：所在城市。
Gender：性別。
Marriage：婚姻狀況。
NickName：微博暱稱。
Num_Fans：粉絲數量。
Num_Follows：關註數量。
Num_Tweets：已發微博數量。
Province：所在省份。
Signature：個性簽名。
URL：微博的個人首頁。

Tweets 表：
_id：採用 “使用者ID-微博ID” 的形式作為一條微博的唯一標識。
Co_oridinates：發微博時的定位坐標（經緯度），呼叫地圖API可直接檢視具體方位，可識別到在哪一棟樓。
Comment：微博被評論的數量。
Content：微博的內容。
ID：使用者ID。
Like：微博被點贊的數量。
PubTime：微博發表時間。
Tools：發微博的工具（手機型別或者平臺）
Transfer：微博被轉發的數量。

作者：九茶

來源：http://blog.csdn.net/bone_ace/article/details/50903178

————近期開班————

馬哥聯合BAT、豆瓣等一線網際網路Python開發達人，根據目前企業需求的Python開發人才進行了深度定製，加入了大量一線網際網路公司：大眾點評、餓了麼、騰訊等生產環境真是專案，課程由淺入深，從Python基礎到Python高階，讓你融匯貫通Python基礎理論，手把手教學讓你具備Python自動化開發需要的前端介面開發、Web框架、大監控系統、CMDB系統、認證堡壘機、自動化流程平臺六大實戰能力，讓你從0開始蛻變成Hold住年薪20萬的Python自動化開發人才。

10期面授班：2018年03月05號（北京）

09期網路班：騰訊課堂隨到隨學（網路）

掃描二維碼領取學習資料

更多Python好文請點選【閱讀原文】哦

↓↓↓

贊賞

長按二維碼向我轉賬

受蘋果公司新規定影響，微信 iOS 版的贊賞功能被關閉，可透過二維碼轉賬支援公眾號。

閱讀原文

即將開啟”“小程式

取消
 開啟

一天可抓取 1300 萬條資料的新浪微博爬蟲

爬蟲功能：

環境、架構：

使用說明：

執行截圖：

資料庫說明：

相關推薦

熱門標籤

熱門文章

分享創造快樂