歡迎光臨
每天分享高質量文章

淘寶、知乎、豆瓣……18個網站的Python爬蟲登錄彙總,都在這個開源專案里

來自:開源最前線(ID:OpenSourceTop)

專案地址:https://github.com/CriseLYJ/awesome-python-login-model

 

如果你從事資料科學領域,那麼獲取資料對於你來說就不可或缺,網絡爬蟲這一關你必須得過,而說到爬蟲,大多數人想到的就是Python,因為python不僅編寫除錯方便,而且能夠快速入門,最主要的是相關的類庫十分豐富

 

今天,要和大家推薦的這個專案就是和Python編程有關的,這個專案介紹瞭如何用 Python 登錄各大網站,並用簡單的爬蟲獲取一些有用資料,目前該專案已經提供了知乎、B 站、和豆瓣等 18 個網站的登錄方法。

 

模擬登陸基本採用的是直接登錄或者使用selenium+webdriver的方式,有的網站直接登錄難度很大,比如qq空間,bilibili等如果採用selenium就相對輕鬆一些。

 

每一個網站都會有對應的登錄代碼,有的還有資料的爬取代碼。下麵我們以淘寶為例:

  • 爬取淘寶各子標簽,按銷量排名商品信息,按分類儲存至MongoDB

  • 通過pandas進行資料分析

  • 將商品在各省分佈、銷量排行、地圖分佈等通過matplotlib繪圖顯示

 

以上是淘寶爬蟲相關的檔案:

  • taobao.py為模擬登錄

  • 剩下的檔案為爬蟲

 

模擬登陸的代碼如下:

 

Bilibili自動登錄測試正常,成功率98%

 

如果你還想查看更多示例,可以前往GitHub詳情頁,而且創建者也鼓勵廣大開發者提 Issue 或 Pull Requests。

 

目前該專案已經獲得 4246 個Star,635 個Fork(GitHub地址:https://github.com/CriseLYJ/awesome-python-login-model

    赞(0)

    分享創造快樂